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本 书 是 介绍 自然 语言 处 理 (NLP ) 和 深度 学 习 的 实战 书 。NLP 已 成 为 深度 学 习 的 核心 应 用 领 
域 ， 而 深度 学 习 是 NLP 研究 和 应 用 中 的 必要 工具 。 本 书 分 为 3 部 分 : 第 一 部 分 介绍 NLP 基础 ， 
包括 分 词 、TF-IDF 向 量化 以 及 从 词 频 向 量 到 语义 向 量 的 转换 ;第 二 部 分 讲述 深度 学 习 ， 包 含 神 
经 网 络 、 词 向 量 、 卷 积 神经 网 络 CCNN )、 循 环 神经 网 络 (RNN )、 长 短期 记忆 (LSTM ) 网 络 、 
序列 到 序列 建 模 和 注意 力 机 制 等 基本 的 深度 学 习 模 型 和 方法 ; 第 三 部 分 介绍 实战 方面 的 内 容 , 包 
括 信息 提取 、 问 答 系 统 、 人 机 对 话 等 真实 世界 系统 的 模型 构建 、 性 能 挑战 以 及 应 对 方法 。 

本 书面 向 中 高 级 Python 开发 人 员 ， 兼 具 基 础 理论 与 编程 实战 ， 是 现代 NLP 领域 从 业者 的 实 
用 参考 书 。 
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史 亮 “小米 NLP 高 级 软件 工程 师 ， 本 科 毕 业 于 武汉 大 学 ， 后 保送 中 科 院 计算 所 硕 博 连 读 ， 
获得 博士 学 位 。 目 前 主要 负责 小 米 MiNLP 平台 的 研发 工作 。 

ER ”小米 NLP 高 级 软件 工程 师 ， 本 科 、 硕 士 毕 业 于 华中 科技 大 学 ， 博 士 毕业 于 中 科 院 计 
算 所 。 目 前 主要 从 事 大 规模 文本 分 类 、 内 容 过 滤 、 人 机 对 话 等 方向 的 研发 工作 。 

唐 可 欣 ”小米 NLP 软件 工程 师 ， 本 科 毕 业 于 西安 电子 科技 大 学 ,硕士 毕业 于 法 国 巴 黎 高 科 
电信 和 学院 。 主 要 从 事 语 言 模型 、 意 图 分 析 、 情 感 分 析 等 方向 的 研发 工作 。 

王 斌 ”小米 AL 实验 室 主任 、NLP 首席 科学 家 ， 前 中 科 院 博导 、 研 究 员 ， 中 国 科 学 院 大 学 教 
授 。 译 有 《信息 检索 导论 兴 大 数据 : 互联 网 大 规模 数据 挖掘 与 分 布 式 处 理 兴 机 器 学 习 实 战 》 等 
书籍 。 
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JERA aT, AA an. MR 2008 年 翻译 第 一 本 书 《 信 息 检索 导论 》 至 今 已 经 整整 过 去 12 年 
了 。 12 年 来 , 我 也 从 中 科 院 的 一 名 老 员工 变 成 了 工业 界 的 一 名 “ 老 ” 员 工 , 自然 语言 处 理 ( Natural 
Language Processing, NLP ) 领域 也 发 生 了 十 分 剧烈 的 变化 。NLP 学 者 们 从 早期 质疑 深度 学 习 到 
全 面 拥抱 深度 学 习 仅 仅 经 历 了 两 三 年 时 间 。 而 工业 界 则 将 这 一 举动 推进 得 更 加 彻底 : 深度 学 习 已 
经 全 面 应 用 于 工业 界 的 许多 NLP 场景 中 。 可 以 说 ， 当 前 深度 学 习 已 经 成 为 NLP 学 术 研究 和 工业 
应 用 中 不 可 或 缺 的 一 件 利器 。 与 此 同时 ,被 誉 为 “人 工 智能 领域 皇冠 上 的 明珠 ”的 NLP 也 迎 来 
了 属于 自己 的 “黄金 ”时 代 ， 在 包括 人 机 对 话 、 机 器 翻译 、 自 动 写 作 、 机 器 阅读 等 在 内 的 诸多 
NLP 应 用 中 都 取得 了 一 系列 令 人 欣喜 的 进步 。 

正 因为 深度 学 习 和 NLP 密 不 可 分 ， 近 年 来 有 关 “ 深 度 学 习 +NLP” 的 课程 和 书籍 也 在 不 断 涌 
现 。 本 书 就 是 其 中 的 一 本 。 和 其 他 实战 类 书籍 一 样 ， 本 书 既 有 基础 理论 也 有 编程 实战 ， 基 础 理论 
部 分 简洁 易 懂 ， 编 程 实战 部 分 可 以 直接 下 载 源 码 运行 ,这 种 搭配 特别 适合 初学 者 入 门 ， 可 以 作为 
现代 NLP 从 业者 的 第 一 本 入 门 书 。 值 得 一 提 的 是 ， 这 本 书 是 我 和 《信息 检索 导论 》 的 责任 编辑 
杨 海 玲 再 次 联手 的 成 果 ， 期 望 能 给 大 家 再 次 种 来 一 部 好 的 翻译 作品 。 

本 书 的 内 容 主要 包括 3 部 分 : 第 一 部 分 是 NLP 基础 入 门 ， 包 括 自然 语言 本 身 的 特点 、 处 理 
过 程 中 的 分 词 、TF-IDF 向 量化 以 及 从 词 频 向 量 到 语义 向 量 的 转换 ;第 二 部 分 是 深度 学 习 部 分 ， 
包含 词 向 量 、CNN、RNN、LSTM、 注 意 力 机 制 等 基本 的 深度 学 习 模 型 和 方法 ; 第 三 部 分 是 实战 
部 分 ， 既 包括 信息 提取 、 问 答 系统 、 人 机 对 话 等 系统 构建 中 的 模型 挑战 ， 也 包括 它们 遇 到 的 性 能 
挑战 ,还 介绍 了 应 对 这 些 挑战 的 一 些 实际 做 法 。 虽 然 本 书 给 出 的 是 一 些 经 典 的 基本 模型 ， 但 是 对 
它们 的 深刻 理解 十 分 有 助 于 快速 掌握 一 些 新 模型 ( 如 Transformer 和 BERT )。 学 完 本 书 ， 再 去 掌 
握 新 的 模型 ， 有 事半功倍 的 效果 。 

由 于 个 人 工作 繁忙 , 精力 有 限 , 我 邀请 了 小 米 人 工 智能 部 AI 实验 室 NLP 团队 的 多 位 同事 合 
作 ， 他 们 都 有 十 分 丰富 的 NLP 实战 经 验 ， 期 望 这 些 经 验 有 助 于 提高 本 书 的 翻译 质量 。 其 中 ， 我 
本 人 承担 了 第 1 ~4 章 的 翻译 工作 , 鲁 吴 、 唐 可 欣 、 史 亮 分 别 承 担 了 第 5~7 章 、 第 8~10 章 、 第 
11 ~ 13 章 的 翻译 工作 ， 其 余部 分 由 大 家 共同 完成 ， 最 后 由 史 亮 博士 进行 了 统 稿 整理 。 在 翻译 过 





























































































































































































































2 译 者 序 


程 中 ,小 米 NLP 团队 的 部 分 成 员 、 我 在 中 科 院 和 北大 的 一 些 毕 业 或 在 读 研 究 生 也 提出 了 宝贵 的 
建议 ， 他 们 是 备 二 利 、 崔 建 伟 、 齐 保 元 、 李 丹 、 李 文 娜 、 花 新 宇 、 郭 元 凯 、 邓 雄 文 、 胡 羽 蓝 、 王 
ER BPR XI, HAR, RAT, GE FE e EAA, JERR E EE 
H AAR, KTA KES, BR, WE, RE, RPE, PA, BRE, ME ER H 
FP Ra. MAE, REE, ERR. feild. RHI. EK EF, S, XIR, 
WH, BIE, RE, SO, MER, FFA, XEM, FHE, CEPR 

由 于 我 们 水 平 有 限 , 如 有 翻译 不 当 之 处 还 请 多 多 指正 。 有 关 本 书 的 任何 意见 和 建议 都 可 以 通 
过 电子 邮件 (wbxjj2008@gmail.com ) 或 者 人 民 邮 电 出 版 社 异步 社区 网 站 进行 反馈 。 

最 后 , 感谢 雷 总 对 技术 的 高 度 重 视 , 感谢 鹤 宝 秋 博 士 的 引荐 和 指导 ,让 我 能 够 很 顺利 地 从 学 
术 界 走 到 工业 界 ， 并 且 能 有 幸 和 一 群 非常 优秀 、 非 常 低调 、 非 常 单纯 的 同事 们 共事 。 在 工业 界 ， 
我 每 天 都 能 看 到 各 种 可 能 的 NLP 和 AI 应 用 场景 ， 场 景 和 技术 的 无 数 可 能 组 合 让 我 这 个 NLP 老 
兵 激动 不 已 。 我 们 团队 研发 的 技术 也 越 来 越 多 地 应 用 到 公司 的 产品 中 , 为 更 多 用 户 带 来 了 更 好 的 
体验 。 我 也 希望 , 有 更 多 人 投入 到 NLP 以 及 AI 领域 中 , 一 起 用 我 们 的 科技 为 用 户 带 来 美好 生活 。 
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2020 年 3 H 3 日 于 小 米 科技 园 
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我 第 一 次 见 到 Hannes 是 在 2006 年 ， 当 时 我 们 正 开始 在 同一 个 系 攻 读 不 同 的 研究 生 学 位 。 很 
快 ， 由 于 他 将 机 器 学 习 和 电气 工程 相 结 合 ， 并 全 身心 投入 对 世界 产生 积极 影响 的 事业 ， 他 变 得 非 
常 出 名 。 在 他 的 整个 职业 生涯 中 , 这 种 全 身心 投入 的 信念 指引 着 他 接触 过 的 每 一 家 公司 和 每 一 个 
项 目 。 正 是 在 这 种 信念 的 指引 下 , 他 与 Hobson 和 Cole 建立 了 联系 ,他 们 对 能 带 来 积极 影响 的 项 
目 有 着 同样 的 热情 。 

当 我 着 手写 这 篇 文字 时 ， 正 是 机 需 学 习 (machine learning, ML) 让 生活 变 得 更 美好 的 热情 
打动 了 我 。 我 个 人 在 机 融 学 习 研 究 方面 的 旅程 中 也 同样 受到 一 种 强烈 愿望 的 指引 ， 即 希望 对 世 
界 产 生 积极 影响 。 我 在 研究 历程 中 开发 了 多 分 辩 率 生态 数据 建 模 算法 ， 以 优化 物种 分 布 的 保护 
和 调查 目标 。 从 那 时 起 ， 我 就 下 定 决 心 继续 在 那些 可 以 通过 应 用 机 器 学 习 来 改善 生活 和 体验 的 
领域 工作 。 


能 力 越 大 ， 责 任 越 大 。 




















一 一 伏 尔 泰 ? 

















无 论 把 这 句 话 归功 于 伏 尔 泰 还 是 本 叔 扳 ( Uncle Ben ) ”， 这 人 句 话 到 今天 都 依然 适用 。 不 过 在 
这 个 时 代 ,， 我 们 或 许可 以 这 样 说 :“ 数 据 越 多 ,责任 越 大 。” 我们 信赖 那些 拥有 数据 的 公司 ,希望 
它们 将 这 些 数据 用 于 改善 我 们 的 生活 。 我 们 允许 自己 的 电子 邮件 被 这 些 公司 扫描 以 纠正 邮件 文字 
中 出 现 的 语法 错误 。 这 些 公司 研究 我 们 在 社交 媒体 上 的 日 常生 活 片段 , 将 其 用 于 向 信息 流 中 注入 
广告 。 手 机 和 家 居 能 够 对 我 们 说 的 话 做 出 反应 ， 有 时 在 不 跟 它们 说 话 的 时 候 也 会 有 响应 ,它们 其 
至 会 监控 我 们 的 新 闻 偏好 ， 以 迎合 我 们 的 兴趣 、 观 点 和 信仰 。 那 么 ,所 有 这 些 强大 科技 的 核心 是 
什么 呢 ? 

答案 是 自然 语言 处 理 ( Natural Language Processing, NLP )。 在 本 书 中 , 读者 不 仅 会 学 习 这 些 


系统 的 内 部 工作 原理 ， 还 会 学 习 相 关 的 理论 和 实践 技能 ， 并 创建 自己 的 算法 或 模型 。 基 本 计算 机 


















































D 伏 尔 泰 ，18 世纪 法 国 著名 的 启蒙 思想 家 、 文 学 家 、 哲 学 家 。 本 概 权 ,美国 漫 画 人 物 ， 蜂 蛛 侠 的 叔叔 。 一 一 译 者 注 








2 序 


科学 概念 无 缝 地 转换 为 方法 和 实践 的 坚实 基础 。 从 一 些 久 经 考验 的 经 典 方法 ( 如 TF-IDF ) 开始 ， 
再 深入 到 NLP 相关 的 深层 神经 网 络 ， 作 者 带领 读者 对 于 上 自然 语言 处 理 的 核心 方法 开启 了 一 段 清 
晰 的 体验 之 旅 。 

语言 是 人 类 建立 共识 的 基础 。 人 们 之 间 交 流 的 不 仅 有 事实 ， 还 有 情感 。 通 过 语言 ， 人 们 获得 
了 经 验 领域 之 外 的 知识 ,并 通过 分 享 这 些 经 验 来 构建 理解 的 过 程 。 通 过 本 书 , 大 家 将 会 深入 理解 
自然 语言 处 理 技术 的 原理 , 有朝一日 可 能 创建 出 能 通过 语言 来 了 解 人 类 的 系统 。 自 然 语 言 处 理 技 
术 有 很 大 的 发 展 潜力 , 但 也 可 能 被 滥用 。 在 本 书 中 , 作者 希望 通过 分 享 这 些 知 识 来 给 我 们 一 个 更 
光明 的 未 来 。 


















































Arwen Griffioen 博士 
Zendesk 公司 高 级 数据 科学 家 


une 


2013 年 前 后 ， 自 然 语言 处 理 和 聊天 机 器 人 开始 占据 我 们 的 生活 。 一 开始 ，Google 搜索 看 起 
来 更 像 是 一 个 索引 ， 需 要 一 些 技巧 才能 找到 我 们 要 找 的 东西 ,但 它 很 快 就 变 得 更 加 智能 ， 可 以 接 
受 越 来 越 多 的 自然 语言 搜索 。 然 后 智能 手机 的 文字 自动 补 全 功能 开始 变 得 先进 起 来 , 中间 按 钮 给 
出 的 通常 就 是 我 们 要 找 的 词 。 

2014 年 年 末 ，Thunder Shiviah 和 我 在 俄 勒 交州 的 一 个 黑客 项 目 (Hack Oregon) EAE, 
掘 竞 选 活动 的 自然 语言 财务 数据 。 我 们 试图 在 美国 的 政治 捐助 者 之 间 找 到 关联 。 政 客 们 似乎 在 竞 
选 财务 文件 中 含糊 其 辞 地 隐藏 了 捐助 者 的 身份 。 在 这 个 项 目 中 , 有 趣 的 不 是 我 们 能 够 使 用 简单 的 
自然 语言 处 理 技 术 来 揭示 这 些 关 联 。 最 让 我 惊讶 的 是 ，Thunder 经 常会 在 我 发 送 电子 邮件 几 秒 钟 
后 ， 以 简洁 而 恰当 的 方式 回复 我 那些 随意 的 电子 邮件 。 他 使 用 的 是 Smart Reply, 一 个 Gmail 收 
件 箱 “ 助 手 ”， 它 的 回复 速度 比 我 们 阅读 电子 邮件 的 速度 还 快 。 

于 是 我 深入 进去 ,学 习 这 些 神奇 的 “魔术 ”背后 的 技巧 。 学 得 越 多 ， 这 些 令 人 印象 深刻 的 自 
然 语 言 处 理 技巧 似乎 就 越 可 行 , 也 越 容易 理解 。 我 接手 的 每 一 个 机 器 学 习 项 目 似 乎 都 涉及 自然 语 
言 处 理 。 

也 许 是 因为 对 语言 的 热爱 , 以 及 迷恋 语言 在 人 类 智能 中 所 起 的 作用 , 我 会 花 几 个 小 时 与 我 在 
夏普 实验 室 的 信息 理论 家 老板 John Kowalski 讨论 词 是 否 具 有 “意义 ”。 我 从 导师 和 学 生 那 里 学 到 
了 越 来 越 多 的 东西 后 ， 也 逐渐 获得 了 自信 ， 我 似乎 能 够 自己 构建 一 些 新 的 、 神 奇 的 东西 。 

我 学 到 的 一 个 技巧 是 遍历 一 组 文档 , 计算 “War” 和 “Hunger” 等 词 之 后 出 现 “Game” 或 “IIIT” 
等 词 的 频率 。 如 果 在 大 量 的 文本 上 进行 这 种 处 理 , 你 就 能 从 词 、 短 语 或 句子 序列 中 很 好 地 猜 出 正 
确 词 。 这 种 经 典 的 语言 处 理 方法 对 我 来 说 很 直观 。 

教授 和 老板 们 把 这 叫 作 马 尔 可 夫 链 , 但 对 我 来 说 ,这 只 是 一 个 概率 表 , 一 个 基于 前 一 个 词 的 
每 个 词 的 计数 列表 。 教 授 们 把 这 叫 作 条 件 分 布 ， 也 就 是 在 前 一 个 词 后 面 出 现 另 一 个 词 的 概率 。Peter 
Norvig 为 Google 构建 的 拼写 校正 需 表 明 这 种 方法 可 以 很 好 地 扩展 , 并 且 只 需要 很 少 的 Python 4È 






























































































































































D 在 智能 手机 的 预测 文本 键盘 上 重复 点 击 中 间 按 钮 ， 了 解 Google 认为 你 接 下 来 想 说 什么 。2013 年 ， 它 作 
为 “SwiftKey game” 首 次 出 现在 Reddit 上 。 











2 前 言 




















码 "。 我 们 需要 的 只 是 大 量 的 自然 语言 文本 。 当 想到 在 维基 百科 或 古 腾 保 计划 这 样 大 规模 的 锡 
费 文本 集合 上 做 这 样 一 件 事 的 可 能 性 时 ， 我 不 禁 兴 奋起 来 。 

然后 我 听 说 了 潜在 语义 分 析 (latent semantic analysis, LSA )。 这 似乎 只 是 描述 在 大 学 里 学 过 
的 线性 代数 运算 的 一 种 奇特 的 方法 。 只 要 记录 下 所 有 一 起 出 现 的 词 , 就 可 以 使 用 线性 代数 将 这 些 
词 按照 “主题 ”分 组 。LSA 可 以 将 整个 句子 甚至 是 一 篇 很 长 的 文档 的 含义 压缩 成 一 个 向 量 。 而 且 ， 
在 搜索 引擎 中 使 用 LSA 时 ， 它 似乎 具有 一 种 不 可 思议 的 能 力 ， 那 就 是 即使 大 家 想 不 起 来 文档 中 
包含 的 词 ， 也 能 够 返回 正在 寻找 的 文档 。 优 秀 的 搜索 引擎 通常 都 能 这 样 做 ! 

然后 , gensim 发 布 了 一 个 基于 Python 实现 的 Word2vec 词 向 量 , 能 对 单个 词 进行 语义 数学 
计算 。 事 实证 明 ， 如 果 把 文档 分 割 成 更 小 的 块 ， 这 个 神奇 的 神经 网 络 数学 就 相当 于 原来 的 LSA 
技术 。 这 让 我 大 开眼 界 ， 给 了 我 希望 ， 让 我 感觉 也 许 我 能 在 这 个 领域 有 所 贡献 。 多 年 来 ,我 一 直 
在 思考 分 层 语义 向 量 一 一 书 是 如 何 由 音节、 段落、 句子 、 短 语 、 词 、 字 符 组 成 的 。Word2vec 的 
发 明 者 Tomas Mikolov 洞察 到 ， 可 以 从 词 和 包含 10 个 词 的 短语 构成 的 两 级 层次 结构 上 找 出 文本 
的 主要 语义 。 几 十 年 来 ，NLP 的 研究 人 员 一 直 认 为 词 具 有 组 成 成 分 ， 如 “好 ”和 情感 强度 。 可 以 
对 这 些 情感 评分 、 添 加 或 删除 成 分 ， 来 组 合 多 个 词 的 含义 。 但 是 ，Mikolov 已 经 想 出 了 无 须 人 工 
创建 这 些 向 量 的 方法 ， 其 至 不 用 定义 什么 是 成 分 。 这 使 NLP 变 得 非常 有 趣 ! 

大 约 在 那个 时 候 ，Thunder 把 我 介绍 给 他 的 学 生 Cole, 后 来 有 人 把 我 介绍 给 Hannes。 于 是 我 
们 3 个 人 开始 在 NLP 领域 “分 而 治之 ”。 我 对 构建 一 个 听 起 来 很 智能 的 聊天 机 器 人 很 感 兴趣 ，Cole 
和 Hannes 的 灵感 来 自强 大 的 神经 网 络 黑匣子 。 不 入， 他们 打开 了 黑匣子 ， 向 我 描述 了 他 们 的 发 
现 。Cole 甚至 用 它 来 构建 聊天 机 器 人 ， 以 帮助 我 完成 NLP 之 旅 。 

每 次 我 们 研究 一 些 令 人 惊奇 的 新 NLP 方法 时 ， 这 些 方 法 似乎 都 是 我 能 够 理解 和 使 用 的 ， 而 
且 似 乎 每 一 种 新 技术 一 问世 就 有 一 个 Python 实现 。 我 们 需要 的 数据 和 预 训练 模型 常常 包含 在 这 
些 Python 包 中 。 周 日 下 午 ， 在 弗 洛 伊 德 的 咖啡 馆 里 ， 我 、Hannes Cole 和 其 他 朋友 们 一 起 集 思 
广 益 ， 或 者 玩 围棋 和 中 键 游 戏 (middle button game )。 我 们 快速 取得 了 一 些 进展 ， 开 始 为 Hack 
Oregon 的 班级 和 团队 做 讲座 。 

在 2015 年 和 2016 年 ,情况 变 得 十 分 严重 。 随 着 微软 公司 的 Tay 和 其 他 机 器 人 开始 失控 , 很 
明显 ， 自 然 语言 机 器 人 正在 影响 社会 。2016 年 ， 我 位 着 测试 一 球 机 器 人 ， 它 能 通过 收集 推 文 来 
预测 选举 。 与 此 同时 ， 有 关 Twitter 机 器 人 对 美国 总 统 大 选 影响 的 新 闻 报 道 开 始 译 出 水 面 。2015 
年 我 了 解 到 , 一 个 系统 可 以 利用 自然 语言 文本 的 算法 “判断 ”来 预测 经 济 趋势 ， 并 触发 大 额 金融 
交易 。 这 些 影响 经 济 和 改变 社会 的 算法 创建 了 一 个 放大 器 反馈 回路 。 对 这 些 算法 来 说 ,“ 适 者 生 
存 ” 法 则 似乎 更 倾向 于 产生 最 多 利润 的 算法 , 而 这 些 利润 往往 是 以 牺牲 民主 的 结构 性 基础 为 代价 
的 。 机 器 正在 影响 人 类 ， 而 我 们 人 类 正在 训练 它们 使 用 自然 语言 来 增加 它们 的 影响 力 。 显 然 ， 这 
些 机 器 是 在 善于 思考 的 人 类 的 控制 之 下 , 但 当 意识 到 这 些 人 同时 也 受到 机 器 人 的 影响 时 , 你 是 不 






































































































































































































































D 详 见 标题 为 “How to Write a Spelling Corrector” 的 网 页 ， 作 者 Peter Norvig。 
@ 如 果 大 家 感激 这 些 可 免费 使 用 的 自然 语言 书籍 , 那么 也 许 也 愿意 参与 争取 延长 版 权 的 原始 “使 用 ”日 期 。 
®© 详 见 标题 为 “Why Banjo Is the Most Important Social Media Company You’ve Never Heard Of” 的 网 页 。 
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是 开始 觉得 有 些 混 乱 了 ? 这 些 机 器 人 会 导致 反馈 系统 中 的 连锁 反应 而 失控 吗 ? 整个 连锁 反应 对 
人 类 的 价值 观 和 利益 是 否 有 利 ， 也 许 与 这 些 机 器 人 的 初始 条 件 有 着 很 大 的 关系 。 

然后 Manning 出 版 公司 的 Brian Sawyer 打 来 电话 , 我 立刻 就 知道 了 我 想 要 写 什 么 , 想 要 帮助 
HE. NLP 算法 和 自然 语言 数据 聚合 的 发 展 步 伐 不 断 加 快 ，Cole、Hannes 和 我 正在 奋力 追赶 。 

政治 和 经 济 领域 的 非 结构 化 自然 语言 数据 使 NLP 成 为 竞选 或 者 财务 管理 者 工具 箱 中 的 关键 
工具 。 令 人 不 安 的 是 ， 有些 文章 由 其 他 机 器 人 撰写 ， 而 这 些 文章 体现 的 情感 驱动 着 机 器 人 写 的 这 
些 预 言 。 这 些 机 器 人 通常 不 知道 彼此 , 但 它们 实际 上 是 在 互相 交谈 ， 并 试图 操纵 对 方 ， 而 对 人 类 
和 整个 社会 的 影响 在 后 来 才能 显现 出 来 。 我 们 只 是 在 这 种 影响 下 随波逐流 而 已 。 

这 种 机 器 人 与 机 避 人 对 话 循 环 的 一 个 例子 是 金融 科技 初创 企业 Banjo 在 2015 年 的 崛起 。 通 
过 监控 Twitter, Banjo 的 NLP 机 器 人 可 以 在 路 透 社 或 美国 有 线 电 视 新 闻 网 的 第 一 位 记者 发 表 报道 
前 30 分 钟 至 1 小 时 预测 出 有 新 闻 价值 的 事件 ， 而 它 用 来 检测 这 些 事 件 的 许多 推 文 几乎 肯定 会 被 
其 他 多 个 机 器 人 收藏 和 转发 ， 目 的 是 吸引 Banjo 的 NLP 机 器 人 的 “眼球 ”。 被 机 器 人 收藏 并 被 
Banjo 监控 的 这 些 推 文 并 不 仅仅 是 根据 机 器 学 习 算法 分 析 来 进行 策划 、 推 广 或 计量 ， 其 中 许多 推 
文 完全 是 由 NLP 引擎 编写 的 。 

越 来 越 多 的 娱乐 、 广告 和 财务 报告 内 容 在 不 需要 人 动 一 根 手指 的 情况 下 就 可 以 生成 。 NLP 
机 器 人 可 以 编写 整个 电影 脚本 “。 视 频 游戏 和 虚拟 世界 经 常会 出 现 与 我 们 对 话 的 机 器 人 ， 它 们 有 
时 甚至 会 谈论 机 器 人 和 人 工 智能 本 身 。 这 种 “ 戏 中 戏 ” 将 得 到 更 多 的 关于 电影 的 元 数据 ， 然 后 现 
实 世 界 中 的 机 器 人 会 据 此 撰写 评论 以 帮助 大 家 决定 看 哪 部 电影 。 随 着 自然 语言 处 理 技术 对 自然 语 
言 风格 的 分 析 以 及 生成 对 应 风格 的 文本 ， 作 者 身份 的 判定 将 变 得 越 来 越 难 “。 

NLP 还 以 一 些 不 那么 直接 的 其 他 方式 影响 着 社会 。NLP 支持 高 效 的 信息 检索 ( 搜索 )， 对 于 
我 们 消费 的 信息 内 容 将 是 一 个 很 好 的 过 滤器 或 促进 者 。 搜 索 是 第 一 个 商业 上 成 功 的 NLP 应 用 。 
搜索 驱动 的 NLP 算法 的 发 展 越 来 越 快 ， 进 而 改进 了 搜索 技术 本 身 。 我 们 会 向 大 家 展示 Web 搜索 
背后 的 一 些 自然 语言 索引 和 预测 技术 ， 以 帮助 大 家 为 这 个 增加 集体 智慧 的 良性 技术 循环 做 出 贡 
献 。 我 们 还 会 展示 如 何 将 本 书 编 人 索引 ， 让 机 器 来 负责 记忆 术语 、 事 实 和 Python 代码 片段 ， 这 
样 大 家 就 可 以 将 大 脑 解 放出 来 进行 更 高 层次 的 思考 。 接 下 来 大 家 还 可 以 用 自己 构建 的 自然 语言 搜 
索 工具 来 影响 你 和 朋友 的 文化 特征 。 

随 着 NLP 技术 的 发 展 ， 信 息 流 和 计算 能 力也 不 断 增强 。 我 们 现在 只 需 在 搜索 栏 中 输入 几 个 
字符 ， 就 可 以 检索 出 完成 任务 所 需 的 准确 信息 。 搜 索 提 供 的 前 几 个 自动 补 全 选项 通常 非常 合适 ， 
以 至 于 让 我 们 感觉 是 有 一 个 人 在 帮助 我 们 进行 搜索 。 当 然 , 我 们 在 编写 本 书 的 过 程 中 使 用 了 各 种 
各 样 的 搜索 引擎 。 有 些 时 候 , 这 些 搜索 结果 中 也 包括 由 机 器 人 策划 或 撰写 的 社交 帖子 和 文章 ,这 
反 过 来 启发 了 后 续 页 面 中 的 许多 NLP 解释 和 应 用 程序 。 




















































































































































































































® Twitter 在 2014 年 的 财务 报告 显示 ， 有 多 于 8% 的 推 文 是 由 机 器 人 撰写 的 ， DARPA [ (美国 ) 国防 高 级 研 
究 计 划 局 | Æ 2015 年 举办 了 一 场 竞 赛 ， 试 图 检测 这 些 机 器 人 ， 以 减少 它们 对 美国 社会 的 影响 。 

@) Five Thirty Eight. 

© NLP 已 经 成 功用 于 分 析 16 世纪 莎士比亚 等 作家 的 风格 。 
























































4 前 言 








到 底 是 什么 推动 了 NLP 的 发 展 ? 

m 是 对 不 断 扩大 的 非 结 构 化 Web 数据 有 了 新 的 认识 吗 ? 

m 是 处 理 能 力 的 提高 跟 上 了 研究 人 员 的 思路 吗 ? 

加 是 用 人 类 语言 与 机 器 互动 的 效率 得 到 提升 了 吗 ? 

实际 上 以 上 这 些 都 是 ， 其 实 还 有 更 多 。 大 家 可 以 在 任何 一 个 搜索 引 警 中 输入 这 样 一 个 问题 
“为 什么 现在 自然 语言 处 理 如 此 重要 ? “， 然 后 就 能 找到 维基 百科 上 给 出 各 种 好 理由 的 文章 ”。 

还 有 一 些 更 深层 次 的 原因 ， 其 中 一 个 原因 是 对 通用 人 工 智能 ( AGI ) 或 深层 人 工 智能 (Deep 
AL) 的 加 速 追 求 。 人 类 的 智慧 可 能 只 是 体现 在 我 们 能 够 把 思想 整理 成 离散 的 概念 ,进行 存 储 ( 记 
忆 ) 和 有 效 地 分 享 。 这 使 我 们 能 够 跨越 时 间 和 空间 来 扩展 我 们 的 智力 ,将 我 们 的 大 脑 连接 起 来 形 
成 集体 智能 。 

Steven Pinker 在 《思想 本 质 》( The Stuff of Thought) 中 提出 的 一 个 观点 是 : 我 们 实际 上 是 用 
自然 语言 思考 的 。 称 其 为 “内 心 对 话 ” 不 是 没有 原因 的 。Facebook、Google 和 Elon Musk EHRE 
于 这 样 一 个 事实 : 文字 将 成 为 思维 的 默认 通信 协议 。 他 们 都 投资 了 一 些 项 目 , 试图 把 思想 、 脑 电 
波 和 电信 号 转换 成 文字 。 此 外 ， 沃 尔 夫 假 说 认为 语言 会 影响 我 们 的 思维 方式 "。 自 然 语 言 无 疑 
是 文化 和 集体 意识 的 传播 媒介 。 
因此 ,如 果 我 们 想 要 在 机 右上 模仿 或 模拟 人 类 的 思维 ,那么 自然 语言 处 理 可 能 是 至 关 重 要 的 。 
此 外 , 大 家 将 在 本 书 中 学 习 词 的 数据 结构 及 般 套 关系 中 可 能 隐藏 着 的 有 关 智 能 的 重要 线索 。 大 家 
将 使 用 这 些 结构 ， 而 神经 网 络 使 无 生命 的 系统 能 够 以 看 起 来 像 人 类 的 方式 消化 、 存 储 、 检 索 和 生 
成 自然 语言 。 

还 有 一 个 更 重要 的 原因 , 为 什么 大 家 想 要 学 习 如 何 编写 一 个 使 用 自然 语言 的 系统 ”这 是 因为 
你 也 许可 以 拯救 世界 ! 希望 大 家 已 经 关注 了 大 佬 们 之 间 关 于 人 工 智 能 控制 问题 和 开发 “友好 人 工 
智能 ”的 挑战 的 讨论 。Nick Bostrom, Calum Chace’, Elon Musk 和 其 他 许多 人 都 认为 ， 人 类 
的 未 来 取决 于 我 们 开发 友好 机 器 的 能 力 。 在 可 预见 的 未 来 , 自然 语言 将 成 为 人 类 和 机 器 之 间 的 重 
要 联系 纽带 。 

即使 我 们 能 够 直接 通过 机 器 进行 “思考 ”， 这 些 想法 也 很 可 能 是 由 我 们 大 脑 中 的 自然 词 和 语 
言 塑造 的 。 自 然 语 言 和 机 器 语言 之 间 的 界限 将 会 变 得 模糊 ， 就 像 人 与 机 器 之 间 的 界限 将 会 消失 一 



















































































































































































] DuckDuckGo 查询 NLP. 
见 维基 百科 词 条 “Natural language processing”。 
见 《 连 线 》 杂 志文 章 “We are Entering the Era of the Brain Machine Interface” ( 我 们 正在 进入 脑 机 接 
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见 标题 为 “Linguistic relativity” 语言 相对 论 ) 的 网 页 。 

见 维基 百科 词 条 “AI Control Problem” o 

alum Chace, Surviving AI. 

见 标 题 为 “Why Elon Musk Spent $10 Million To Keep Artificial Intelligence Friendly” ( 为 什么 伊 隆 ' 马 
克 花 1000 万 美元 来 保持 人 工 智 能 友好 ) 的 网 页 。 
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前 言 5 


样 。 事 实 上 ， 这 条 界线 在 1984 年 开始 变 得 模糊 ， 那 年 《 赛 博 格 宣言 》 “的 发 表 使 George Orwell 
的 反 乌托邦 预言 变 得 更 加 可 能 并 易于 接受 ”。 

希望 “帮助 杯 救 世界 ”这 句 话 没有 计 大 家 产生 疑惑 。 随 着 本 书 的 进展 ,我 们 将 向 读者 展示 如 
何 构建 和 连接 聊天 机 器 人 “大 脑 "。 在 这 个 过 程 中 ， 读 者 会 发 现 人 类 和 机 器 之 间 的 社交 反馈 回路 
上 ， 微 小 的 扰动 都 可 能 会 对 机 器 和 人 类 产生 深远 的 影响 。 就 像 一 只 蝴蝶 在 某 个 地 方 裔 动 翅膀 一 
样 ， 对 聊天 机 器 人 的 “自私 属性 ”上 一 个 微小 的 调整 ， 可 能 会 带 来 敌对 聊天 机 器 人 冲突 行为 的 
混乱 风暴 ”。 大 家 还 会 注意 到 ， 一 些 善 良 无 私 的 系统 会 迅速 聚集 一 批 电 实 的 支持 者 ， 来 帮助 平 
息 由 那些 目光 短 浅 的 机 器 人 造成 的 混乱 。 由 于 亲 社 会 行为 的 网 络 效应 ， 亲 社会 的 协作 型 聊天 机 
器 人 可 以 对 世界 产生 巨大 影响 o 

这 正 是 本 书 作者 聚集 在 一 起 的 原因 。 通过 使 用 我 们 与 生 俱 来 的 语言 在 互联 网 上 进行 开放 、 诚 
实 、 亲 社会 的 交流 ， 形 成 了 一 个 支持 社区 。 我 们 正在 利用 集体 智慧 来 帮助 建立 和 支持 其 他 半 智 能 
的 参与 者 (机 器 ) ”。 我 们 希望 我 们 的 话语 能 在 大 家 的 脑海 中 留 下 深刻 的 印象 ， 并 像 meme 一 样 
在 聊天 机 器 人 的 世界 里 广泛 传播 ， 用 构建 亲 社会 NLP 系统 的 热情 来 感染 其 他 人 。 我 们 希望 ， 当 
超级 智能 最 终 出 现时 ， 这 种 亲 社 会 的 精神 能 对 它 有 略微 的 推动 作用 。 





















































QD Haraway, Cyborg Manifesto. 

@) George Orwell 的 《1984》 的 维基 百科 词 条 。 

© 维基 百科 词 条 “The Year 1984”。 

@ 聊天 机 器 人 的 主要 工具 是 模仿 与 它 交谈 的 人 。 对话 参与 者 可 以 使 用 这 种 影响 对 机 器 人 产生 亲 社 会 和 反 社 
会 行为 的 研究 。 参 见 Tech Republic 的 文章 “Why Microsoft’s Tay AI Bot Went Wrong”( 为 什么 是 微软 的 
Tay AI 机 名 人 出 了 问题 )。 

@ 关于 自动 驾驶 汽车 可 能 对 高 峰 时 段 交 通 造成 影响 的 研究 中 ， 可 以 找到 一 个 自动 驾驶 汽车 “感染 ”人 类 的 
例子 。 在 一 些 研究 中 ， 高 速 公路 上 ， 你 周围 的 每 十 辆 车 中 就 有 一 辆 车 会 帮助 你 调节 行为 ， 减 少 拥堵 ， 
产生 更 通畅 、 更 安全 的 交通 流量 。 

© Toby Segaran 的 Programming Collective Intelligence (人 《集体 智慧 编程 》) 在 2010 年 开启 了 我 的 机 器 学 习 
之 旅 。 
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WRIA A AR Bait FP A, FAAR ERN, 将 这 本 书 和 软件 组 织 在 
一 起 是 不 可 能 的 。 这 些 文 持 者 来 自 一 个 充满 活力 的 波 特 兰 社区 ， 这 个 社区 得 到 了 PDX Python, 
Hack Oregon, Hack University, Civic U, PDX Data Science, 、Hopester、PyDX 、PyLadies 和 Total 
Good 等 组 织 的 支持 。 

Zachary Kent 设计 、 构 建 并 维护 了 openchat (PyCon Open Spaces Twitter bot ), Riley Rustad 
在 本 书 和 我 们 的 技术 不 断 取得 进展 的 过 程 中 为 其 数据 模式 打造 了 原型 。Santi Adavani 使 用 斯 坦 福 
大 学 的 CoreNLP 库 实现 了 命名 实体 识别 , 为 SVD 和 PCA 开发 了 教程 ， 并 支持 我 们 访问 他 的 
RocketML HPC 框架 ， 该 框架 可 以 为 视 障 人 士 训 练 实时 视频 描述 模型 。Eric Miller 分 配 了 一 些 
Squishy Media 的 资源 来 引导 Hobson 的 NLP 可 视 化 技术 。Erik Larson 和 Aleck Landgraf 慷慨 地 为 
Hobson 和 Hannes 提供 了 在 创业 初期 进行 机 需 学 习 和 NLP 实验 的 空间 。 

Anna Ossowski 帮助 设计 了 PyCon Open Spaces 的 Twitter 机 器 人 ， 并 在 早期 学 习 阶 段 指导 它 
来 发 布 可 靠 的 推 文 。Chick Wells 与 其 他 人 共同 创建 了 Total Good， 为 聊天 机 器 人 开发 了 一 个 聪明 
有 趣 的 智商 测试 项 目 ， 并 不 断 地 用 他 的 专业 知识 支持 我 们 。 像 Kyle Gorman 这 样 的 NLP 专家 慷 
慨 地 与 我 们 分 享 了 他 们 的 时 间 、NLP 专业 知识 、 代 码 和 宝贵 的 数据 集 。Catherine Nikolovski 分 享 
了 她 在 Hack Oregon 和 Civic U 的 社区 和 资源 。Chris Gian 在 本 书 的 示例 中 贡献 了 他 对 NLP 项 目 
的 想法 ， 并 勇敢 接替 了 在 Civic U 机 器 学 习 课 程 中 途 退 出 的 老师 ， 你 真是 一 个 “天 行者 "! Rachel 
Kelly 为 我 们 在 资料 开发 的 早期 阶段 提供 了 展示 和 支持 。Thunder Shiviah 孜孜 不 倦 的 教学 以 及 对 
机 器 学 习 和 生活 的 无 限 热 情 给 了 我 们 源源 不 断 的 灵感 。 

Hopester 的 Molly Murphy 和 Natasha Pettit 激发 了 我 们 开发 亲 社 会 聊天 机 器 人 的 理念 。Jeremy 
Robin 和 Talentpair 团队 提供 了 宝贵 的 软件 工程 反馈 ， 并 帮助 将 本 书 中 提 到 的 一 些 概念 变 为 现实 。 
Dan Fellin 的 PyCon 2016 教程 以 及 Twitter 上 的 Hack University 课程 ,帮助 我 们 开启 了 NLP A 

伶 之 旅 。Aira 的 Alex Rosengarten, Enrico Casini, Rigoberto Macedo, Charlina Hung 和 Ashwin Kanan 
使 用 高 效 、 可 靠 、 可 维护 的 对 话 引擎 和 微服 务实 现 了 本 书 中 聊天 机 器 人 的 移动 化 。 谢 谢 Ella 和 
Wesley Minton， 你 们 在 学 习 编 写 第 一 个 Python 程序 的 同时 ， 将 我 们 那些 疯狂 的 聊天 机 器 人 的 想 




























































































2 致谢 




















法 付 诸 实 践 ， 你 们 是 我 们 的 “小 白鼠 ”。Suman Kanuganti 和 Maria MacMullin 的 愿景 是 建立 更 多 
的 基础 设施 ， 使 学 生 可 以 负担 得 起 Aira 的 可 视 化 解释 器 。 感 谢 Clayton Lewis 让 我 参与 到 他 的 认 
知 协助 研究 中 ， 尽 管 在 科 尔 曼 研究 所 的 研讨 会 上 我 只 能 贡 贡献 仅 有 的 热情 和 一 些 陈旧 的 代码 。 

在 本 书 中 讨论 的 一 些 工作 由 Aira 科技 公司 获得 的 美国 国家 科学 基金 会 (NSF ) 资助 项 目 
1722399 支持 。 任 何 观 点 、 发 现 及 推荐 仅 代表 本 书 作者 的 看 法 ， 与 此 处 提 到 的 这 些 组 织 或 个 人 
无 关 。 

最 后 ， 我 们 要 感谢 Manning 出 版 社 每 一 个 人 的 辛勤 工作 ， 感 谢 Arwen Griffioen 博士 为 本 书 
作 序 ， 感 谢 Davide Cadamuro 博士 的 技术 评论 ， 还 要 感谢 所 有 的 审 稿 人 ， 他 们 的 反馈 和 帮助 改进 
TRE, 极 大 增加 了 我 们 的 集体 智慧 。 他 们 是 Chung-Yao Chuang, Fradj Zayen, Geoff Barto 、Jared 
Duncan, Mark Miller, Parthasarathy Man-dayam 、Roger Meli, Shobha Iyer, Simona Russo, Srdjan 
Santic, Tommaso Teofili, Tony Mullen, Vladimir Kuptsov、 William E. Wheeler 和 Yogesh Kulkarni. 



































Hobson Lane 致谢 


永远 感激 我 的 父母 让 我 对 文字 和 数学 充满 了 兴趣 。 我 要 感谢 Larissa Lane 
勇敢 的 冒险 家 ， 感 谢 你 帮助 我 实现 了 两 个 毕生 的 梦想 : 环 游 世界 和 写 一 本 书 。 

感谢 Arzu Karaer， 我 永远 感激 你 的 恩典 和 耐心 ， 感 谢 你 帮 我 拾 起 破碎 的 心 ， 重 塑 我 对 人 性 
的 信念 ， 使 本 书 充 满 正 能 量 。 





我 所 认识 的 最 











Cole Howard 致谢 

















我 要 感谢 我 的 妻子 Dawn。 她 超人 的 耐心 和 理解 是 我 的 灵感 的 源泉 。 还 有 我 的 母亲 ， 鼓 励 我 
不 断 地 尝试 和 永远 坚持 学 习 。 


Hannes Max Hapke 致谢 


非常 感谢 我 的 合作 伙伴 Whitrey， 她 一 直 支 持 我 的 努力 。 谢 谢 你 的 建议 和 反馈 。 我 还 要 感谢 

我 的 家 人 ,尤其 是 我 的 父母 ， 他 们 鼓励 我 到 世界 各 地 去 探索 胃 险 。 没 有 他 们 ,所 有 这 些 工作 都 不 

可 能 完成 。1989 年 11 月 的 某 个 夜晚 ， 如 果 没 有 这 些 勇 敢 的 男男女女 们 改变 世界 的 壮举 ， 我 所 有 
的 人 生 冒 险 都 是 不 可 能 的 。 谢 谢 你 们 的 勇敢 。 
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本 书 是 处 理 和 生成 自然 语言 文本 的 实用 指南 。 在 本 书 中 ， 我 们 为 大 家 提供 了 构建 后 端 NLP 
系统 所 需 的 所 有 工具 和 技术 ， 以 支持 虚拟 助手 〈 聊 天 机 需 人 )、 垃 圾 邮件 过 滤 需 、 论 坛 版 主 、 情 
感 分 析 器 、 知 识 库 构 建 器 、 自 然 语言 文本 挖掘 器 或 者 其 他 任何 可 以 想到 的 NLP 应 用 程序 。 

本 书面 向 中 高 级 Python 开发 人 员 。 对 于 已 经 能 够 设计 和 构建 复杂 系统 的 读者 ， 本 书 的 大 部 
分 内 容 依然 会 很 有 用 ， 因 为 它 提供 了 许多 实践 示例 ， 并 深入 讲解 了 先进 的 NLP 算法 的 功能 。 虽 
然 面向 对 象 的 Python 开发 知识 可 以 帮助 大 家 构建 更 好 的 系统 ， 但 并 不 是 使 用 本 书 中 学 到 的 知识 
所 必需 的 。 

对 于 一 些 特定 的 主题 ， 我 们 提供 了 充足 的 背景 资料 ， 为 想 深 入 了 解 的 读者 提供 了 参考 资料 
( 包括 文本 和 在 线 资料 )。 


路 线 图 



































如 果 你 是 Python 和 自然 语言 处 理 的 新 手 ， 那 么 应 该 首先 阅读 第 一 部 分 ， 然 后 阅读 第 三 部 分 
中 感 兴趣 或 工作 中 遇 到 的 实际 有 挑战 性 的 章节 。 如 果 想 快速 了 解 深度 学 习 支 持 的 NLP 功能 ， 还 
需要 按 顺 序 阅 读 第 二 部 分 , 这 部 分 内 容 可 以 帮 大 家 建立 对 神经 网 络 的 初步 理解 , 并 逐步 提高 神经 
网 络 的 复杂 性 和 能 力 。 

只 要 发 现 有 一 章 或 章 中 的 一 节 可 以 “在 脑海 中 运行 ”， 你 就 应 该 在 机 器 上 真正 地 运行 它 。 如 
果 任 何 示例 看 起 来 可 以 在 文本 文档 上 运行 ， 就 应 该 将 该 文本 放 和 人 nlpia/src/nlpia/data/ 目 录 中 的 CSV 
文件 或 文本 文件 中 ， 然 后 使 用 nlpia.data.loader.get_data () 函数 来 提取 这 些 数据 并 运 
行 相应 的 示例 。 


主要 内 容 


第 一 部 分 的 各 章 会 讨论 使 用 自然 语言 的 逻辑 , 并 将 其 转换 为 可 以 搜索 和 计算 的 数字 。 这 种 对 






































2 关于 本 书 





词 的 “拦截 和 处 理 ”在 信息 检索 和 情感 分 析 等 应 用 中 会 带 来 很 好 的 效果 。 一 旦 掌握 了 基本 知识 ， 
大 家 就 会 发 现 有 一 些 非常 简单 的 算法 ,通过 循环 反复 计算 ， 就 可 以 解决 一 些 重要 的 问题 ， 如 垃圾 
邮件 过 滤 。 大 家 将 在 第 2 章 到 第 4 章 中 学 到 的 这 种 垃圾 邮件 过 滤 技 术 , 正在 将 全 球 电子 邮件 系统 
从 混乱 和 停滞 中 拯救 出 来 。 大 家 将 学 习 如 何 使 用 20 世纪 90 年 代 的 技术 来 构建 一 个 精确 率 超 过 
90% 的 垃圾 邮件 过 滤器 一 一 只 需要 通过 计算 词 的 数目 并 对 这 些 数目 计算 一 些 简单 的 平均 值 即 可 。 

这 些 文字 上 的 数学 运算 听 起 来 可 能 很 乏味 , 但 实际 上 却 非 常 有 趣 。 很 快 ， 大 家 就 可 以 构建 出 
能 够 对 自然 语言 做 出 决策 的 算法 ， 而 且 可 能 比 你 自己 做 出 的 更 好 、 更 快 。 这 可 能 是 大 家 人 生 中 第 
一 次 以 这 样 的 视角 来 充分 欣赏 语言 反映 和 赋予 你 思考 的 方式 。 词 和 思想 的 高 维 向 量 空间 视图 将 让 
你 的 大 脑 进入 不 断 自我 发 现 的 循环 。 

本 书 的 第 二 部 分 将 是 学 习 的 高 潮 。 这 部 分 的 核心 是 探索 神经 网 络 中 复杂 的 计算 和 通信 网 络 。 
在 一 个 具有 “思维 ”的 网 络 中 ,小 型 逻辑 单元 之 间 相 互 作 用 的 网 络 效应 使 机 器 能 够 解决 一 些 过 去 
只 有 聪明 的 人 类 才能 解决 的 问题 ， 例 如 类 比 问题 、 文 本 摘要 和 自然 语言 翻译 。 

是 的 ,大 家 还 会 学 到 词 问 量 ， 别 担心 ,不 过 确实 还 有 很 多 。 大 家 将 掌握 对 词 、 文 档 和 句子 进 
行 可 视 化 , 并 将 它们 置 于 一 个 由 相互 关联 的 概念 组 成 的 云 中 , 这 些 概念 远 远 超出 了 大 家 可 以 轻松 
掌握 的 三 维 空间 。 大 家 会 把 文档 和 词 想 象 成 “ 龙 与 地 下 城 ”的 角色 表 ， 里 面 有 无 数 随机 选择 的 特 
征 和 能 力 ， 它 们 随 着 时 间 的 推移 而 进化 和 成 长 ， 当 然 这 些 只 发 生 在 我 们 的 头脑 中 。 

对 词 及 其 含义 的 理解 将 是 第 三 部 分 “进入 现实 世界 ”的 基础 , 在 这 里 大 家 将 学 习 如 何 构建 
够 像 人 类 一 样 交 谈 和 回答 问题 的 机 器 。 


天 于 代码 


本 书 列 出 了 许多 源 代码 的 示例 , 包含 在 编号 的 代码 清单 以 及 正文 中 。 源 代码 都 使 用 等 宽 的 字 
体 , 以 便 与 普通 文本 进行 区 分 。 有 时 , 如果 代码 与 之 前 相 比 有 所 变化 , 例如 , 添加 了 一 些 新 特性 ， 
会 通过 加 粗 进行 突出 显示 。 

大 多 数 时 候 , 原始 源 代 码 已 经 做 了 重新 格式 化 , 我 们 添加 了 换行 符 和 重新 缩 进 ， 以 适应 本 书 
的 页 面 宽度 ， 但 在 极 少数 情况 下 ， 这 样 还 不 够 ， 所 以 我 们 会 在 代码 清单 中 使 用 续 行 标记 (〈 对)。 
此 外 ， 当 在 正文 中 描述 代码 时 , 通常 会 将 源 代码 中 的 注释 删 掉 。 许 多 代码 清单 中 都 附加 了 代码 注 
释 ， 以 强调 一 些 重要 概念 。 

本 书 所 有 代码 清单 中 的 源 代 码 均 可 从 出 版 社 网 站 和 本 书 的 GitHub 下 载 。 
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霍 布 森 + 莱恩 (Hobson Lane ) 拥有 20 年 构建 自主 系统 的 经 验 ， 这 些 系统 
能 够 代表 人 类 做 出 重要 决策 。Hobson 在 Talentpair 训练 机 需 完 成 简历 的 阅读 和 
理解 ， 以 减少 招聘 者 产生 的 偏见 。 在 Aira， 他 帮助 构建 了 第 一 个 聊天 机 器 人 ， 
为 视 障 人 十 描述 视觉 世界 。 他 热衷 于 开放 和 亲 社 会 的 人 工 智 能 。 他 是 Keras, 
scikit-learn, PyBrain, PUGNLP 和 ChatterBot 等 开源 项 目的 积极 贡献 者 。 他 目 
前 正在 从 事 完全 公益 的 开放 科学 研究 和 教育 项 目 , 包括 构建 一 个 开放 源码 的 认 
知 助手 。 他 在 AIAA、PyCon PAIS 和 IEEE 上 发 表 了 多 篇 论文 和 演讲 ， 并 获 
得 了 机 需 人 和 自动 化 领域 的 多 项 专利 。 

PHK + 霍华德 (Cole Howard ) 是 一 位 机 器 学 习 工 程 师 、NLP 实践 者 和 作 
家 。 他 一 生 都 在 寻找 模式 ， 并 在 人 工 神经 网 络 的 世界 里 找到 了 自己 真正 的 家 。 
他 开发 了 大 型 电子 商务 推荐 引擎 和 面向 超 维 机 器 智能 系统 ( 深度 学 习 神 经 网 
络 ) 的 最 先进 的 神经 网 络 ， 这 些 系统 在 Kaggle 竞赛 中 名 列 前 茅 。 他 曾 在 Open 
Source Bridge 和 Hack University 大 会 上 发 表演 讲 , 介绍 卷 积 神经 网 络 、 循 环 神 
经 网 络 及 其 在 自然 语言 处 理 中 的 作用 。 

汉 纳 斯 : 马克 斯 : 哈 普 克 (Hannes Max Hapke ) 是 从 一 位 电气 工程 师 转行 
成 为 机 器 学 习 工 程 师 的 。 他 在 高 中 研究 如 何在 微 控 制 器 上 计算 神经 网 络 时 ,对 
神经 网 络 产 生 了 浓厚 的 兴趣 。 在 大 学 后 期 , 他 应 用 神经 网 络 的 概念 来 有 效 地 控 
制 可 再 生 能 源 发 电厂 。Hannes 喜欢 自动 化 软件 开发 和 机 带 学 习 流 水 线 。 他 与 
合作 者 共同 开发 了 面向 招聘 、 能 源 和 医疗 应 用 的 深度 学 习 模 型 和 机 器 学 习 流 水 
线 。Hannes 在 包括 OSCON Open Source Bridge 和 Hack University 在 内 的 各 种 
会 议 上 发 表演 讲 介 绍 机 咒 学 习 。 
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KPHM Hime “UNS CE thew Bett” (Woman from Kranjska Gora, 
Slovenia )。 该 插画 来 自 克罗地亚 斯 普 利 特 民 族 博物 馆 于 2008 年 出 版 的 Balthasar Hacquet 的 Images 
and Descriptions of Southwestern and Eastern Wends, Illyrians, and Slavs 最 新 重印 版 本 。Hacquet 
(1739—1815 ) 是 一 名 奥地利 医生 和 科学 家 ， 他 花费 多 年 时 间 研 究 朱 利安 阿尔 卑 斯 山 的 植物 、 地 
质 和 人 种 。Hacquet 发 表 的 许多 科学 论文 和 书籍 都 附 有 手绘 搬 画 。 

Hacquet 的 作品 中 丰富 多 彩 的 绘画 生动 地 描绘 了 200 年 前 东部 阿尔 卑 斯 地 区 的 独特 性 和 个 体 
性 。 在 那个 时 代 ， 相 距 几 千 米 的 两 个 村 庄村 民 的 衣着 都 杀 然 不 同 ， 当 有 社交 活动 或 交易 时 , 不 同 
地 区 的 人 们 很 容易 通过 着 装 来 辨别 。 从 那 之 后 ， 着 装 规范 不 断 发 生变 化 ， 不 同 地 区 的 多 样 性 也 
逐渐 消失 。 现 在 即使 是 两 个 大 陆 的 居民 之 间 往 往 也 很 难 区 分 了 。 今天 居住 在 斯 洛 文 尼 亚 阿 尔 捍 
斯 山上 风景 如 画 的 城镇 和 村 庄 里 的 居民 , 与 斯 洛 文 尼 亚 其 他 地 区 或 欧洲 其 他 地 区 的 居民 并 无 明 
显 区 别 。 

Manning 出 版 社 利用 两 个 世纪 前 的 服装 来 设计 书籍 封面 ,以 此 来 赞颂 计算 机 产业 所 具有 的 创 
造 性 、 主 动 性 和 趣味 性 。 正 如 本 书 封面 插画 一 样 ， 这 些 图 片 也 把 我 们 带 回 到 过 去 的 生活 中 去 。 
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本 书 由 异步 社区 出 品 ， 社 区 (https:/Avww.epubit.com/ ) 为 您 提供 相关 资源 和 后 续 服 务 。 


配套 资源 
本 书 提 供 源 代码 和 书 中 提 及 数据 集 的 下 载 。 要 获得 以 上 配套 资源 ,请 在 异步 社区 本 书页 面 中 


Ah ESS, Wee PRA, HAN METI YER AT. HE: 为 保证 购书 读者 的 权益 ， 该 操作 
会 给 出 相关 提示 ， 要 求 输入 提取 码 进行 验证 。 


提交 勘误 

作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ,但 难免 会 存在 疏漏 。 欢 迎 您 将 发 现 的 
问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 

当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 单 击 “ 提 交 勘 误 ”， 输 入 勘 
误 信息 ， 单 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 确 认 并 接受 后 ， 
您 将 获 赠 异步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 或 奖品 。 
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2 资源 与 支持 


与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 

如 果 您 对 本 书 有 任何 疑问 或 建议 , 请 您 发 邮件 给 我 们 ,并 请 在 邮件 标题 中 注 明 本 书 书 名 ， 以 
便 我 们 更 高 效 地 做 出 反馈 。 

如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 发 邮件 
给 我 们 ; 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 投稿 ( 直接 访问 www.epubit.com/selfpublish/ 
submission BIJ FJ )。 

如 果 您 来 自学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 , 也 可 以 发 
邮件 给 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 , 包括 对 图 书 全 部 或 
部 分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举动 是 对 作 
者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 


关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书社 区 ， 致 力 于 出 版 精品 IT 技术 图 书 和 相关 学 习 
产品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社 区 创办 于 2015 年 8 月 ， 提 供 大 量 精 品 IT 技术 图 书 和 电 
子 书 ， 以 及 高 品质 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 https://www.epubit.com. 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 的 品牌 , 依托 于 人 民 邮 电 出 
版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 , 相关 图 书 在 封面 上 印 有 异步 图 书 的 LOGO。 
异步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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第 一 部 分 
处 理 文本 的 机 器 


EA 一 部 分 会 介绍 一 些 来 自 真实 世界 的 应 用 ， 从 而 开启 大 家 的 自然 语言 处 理 ( Natural 
Language Processing, NLP ) “冒险 之 旅 ”。 

在 第 1 章 中 , 我 们 将 很 快 开 始 思考 一 个 问题 : 如 何在 自己 的 生活 中 使 用 机 器 来 处 理 文 
字 ? 希望 大 家 能 感受 到 机 器 的 魔力 一 一 它 具 备 从 自然 语言 文档 的 词语 中 收集 信息 的 能 
词语 是 所 有 语言 的 基础 , 无 论 是 编程 语言 中 的 关键 字 还 是 孩提 时 代 学 到 的 自然 语言 词语 都 
是 如 此 。 

在 第 2 章 中 , 我 们 将 会 提供 一 些 可 以 教会 机 器 从 文档 中 提取 词语 的 工具 。 这 类 工具 比 
想象 的 要 多 得 多 , 我 们 将 展示 其 中 所 有 的 技巧 。 大 家 将 学 会 如 何 将 自然 语言 中 的 词语 自动 
聚合 成 具有 相似 含义 的 词语 集合 ， 而 不 需要 手工 制作 同义词 表 。 

在 第 3 章 中 ， 我 们 将 对 这 些 词语 进行 计数 ， 并 将 它们 组 织 成 表示 文档 含义 的 向 量 。 
无 论文 档 是 140 字 的 推 文 还 是 500 页 的 小 说 , 我 们 都 可 以 使 用 这 些 向 量 来 表示 整 篇 文档 的 
含义 。 

在 第 4 章 中 , 我 们 会 学 到 一 些 久 经 考验 的 数学 技巧 , 它们 可 以 将 前 面 的 向 量 压缩 为 更 
有 用 的 主题 向 量 。 

到 第 一 部 分 结束 时 , 读者 将 会 掌握 很 多 有 趣 的 NLP 应 用 (从 语义 搜索 到 聊天 机 器 人 ) 
所 需 的 工具 。 
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本 章 主 要 内 容 

E 自然 语言 处 理 (NLP ) 的 概念 

E NLP 的 难点 以 及 近年 来 才 开 始 流行 的 原因 

图 词 序 和 语法 重要 或 可 以 忽略 的 时 机 

E 如 何 利用 多 个 NLP 工具 构建 聊天 机 器 人 

图 如 何 利 用 正则 表达 式 初步 构建 一 个 微型 聊天 机 器 人 

















我 们 即将 开启 一 段 激动 人 心 的 自然 语言 处 理 ( NLP ) 冒险 之 旅 ! 首先 ， 本 章 将 介绍 NLP 的 
概念 及 其 应 用 场景 ， 从 而 启发 大 家 的 NLP 思维 ， 不 论 你 是 在 工作 还 是 在 家 ， 都 能 够 帮助 大 家 思 
考生 活 中 的 NLP 使 用 之 道 。 
然后 ,我 们 将 深入 探索 细节 ， 研 究 如 何 使 用 Python 这 样 的 编程 语言 来 处 理 一 小 段 英文 文本 ， 
从 而 帮助 大 家 逐步 构建 自己 的 NLP 工具 箱 。 在 本 章 中 ， 读 者 将 会 编写 自己 的 第 一 个 可 以 读 写 英 
语 语句 的 程序 ， 该 Python 代码 片段 将 是 学 习 “ 组 装 ” 英 语 对 话 引 擎 〈 聊 天 机 需 人 ) 所 需 所 有 技 
巧 的 第 一 段 代码 。 































































































11 自然 语言 与 编程 语言 


和 计算 机 编程 语言 不 同 , 自然 语言 并 不 会 被 翻译 成 一 组 有 限 的 数学 运算 集合 。 人 类 利用 自然 
语言 分 享 信息 ， 而 不 会 使 用 编程 语言 谈天 说 地 或 者 指引 去 杂货 店 的 路 。 用 编程 语言 编写 的 计算 机 
程序 会 清楚 地 告诉 机 器 做 什么 ， 而 对 于 像 英 语 或 者 法 语 这 样 的 自然 语言 ,并 没有 所 谓 的 编译 器 或 
解释 器 将 它们 翻译 成 机 器 指令 。 

定义 自然 语言 处 理 是 计算 机 科学 和 人 工 智能 (artificial intelligence, Al) 的 一 个 研究 领域 ， 它 关注 

自然 语言 ( 如 英语 或 汉语 普通 话 ) 的 处 理 。 这 种 处 理 通 党 包括 将 自然 语言 转换 成 计算 机 能 够 用 于 理 

解 这 个 世界 的 数据 ( 数字 )。 同 时 ， 这 种 对 世界 的 理解 有 时 被 用 于 生成 能 够 体现 这 种 理解 的 自然 语 


































































































4 第 1 章 NLP 概述 
言 文本 ( 即 自 然 语言 生成 ) "。 


尽管 如 此 , 本 章 还 是 介绍 机 器 如 何 能 够 对 自然 语言 进行 处 理 这 一 过 程 。 我们 甚至 可 以 把 该 处 
理 过 程 看 成 是 自然 语言 的 解释 器 ， 就 如 同 Python 的 解释 器 一 样 。 在 开发 计算 机 程序 处 理 自然 语 
言 时 ， 它 能 够 在 语句 上 触发 动作 甚至 进行 回复 。 但 是 这 些 动 作 和 回复 并 没有 精确 定义 , 这 让 自然 
语言 “流水 线 ”的 开发 者 拥有 更 多 的 灵活 性 。 

定义 ”自然 语言 处 理 系统 常常 被 称 为 “流水 线 ”( pipeline ), 这 是 因为 该 系统 往往 包括 多 个 处 理 环节 ， 

其 中 自然 语言 从 “流水 线 ”的 一 端 输入 ， 处 理 后 的 结果 从 另 一 端 输出 。 

很 快 大 家 就 有 能 力 编写 软件 来 做 一 些 有 趣 的 、 出 乎 意料 的 事情 ,例如 ,可 以 让 机 咒 有 点 儿 像 
人 一 样 进行 对 话 。 这 看 起 来 可 能 有 点 儿 像 魔术 , 是 的 , 所 有 的 先进 技术 最 初 看 起 来 都 有 点 儿 像 魔 
术 。 但 是 ,我 们 会 拉 开 魔术 背后 的 “帷幕 ”让 大 家 一 探究 竟 ， 这 样 大 家 很 快 就 会 知道 自己 变 出 这 
些 魔术 所 需要 的 所 有 道具 和 工具 。 












































Dave Magee, 4438 LE ILF, 1995 


12 神奇 的 魔法 


能 够 读 写 自然 语言 的 机 器 有 什么 神奇 之 处 呢 ? 自 从 发 明 计算 机 以 来 ， 机 器 一 直 在 处 理 语言 。 
然而 ， 这 些 “ 形 式 ” 语 言 ( 如 早期 语言 Ada、COBOL 和 Fortran ) 被 设计 成 只 有 一 种 正确 的 解释 
(或 编译 ) 方式 。 目 前 ， 维 基 百 科 列 出 了 700 SPEEA. HILL, Ethnologue 已 经 确认 的 
自然 语言 总 数 是 当前 世界 各 地 人 们 所 用 的 自然 语言 的 10 倍 。 谷 歌 的 自然 语言 文档 索引 远 超过 1 
亿 吉 字 节 ”, 而 且 这 只 是 索引 而 已 ， 当 前 在 线 的 实际 自然 语言 内 容 大 小 肯定 超过 1000 亿 吉 字 节 ， 
同时 这 些 文档 并 没有 完全 覆盖 整个 互联 网 。 但 是 自然 语言 文本 数量 之 庞大 并 不 是 使 自然 语言 文本 
处 理 软件 开发 十 分 重要 的 唯一 原因 。 

自然 语言 处 理 真 的 很 难 , 能 够 处 理 某 些 自然 事物 的 机 器 本 身 却 不 是 自然 的 。 这 有 儿 点 像 使 用 
建筑 图 来 建造 一 个 有 用 的 建筑 。 当 软件 能 够 处 理 不 是 为 了 机 器 理解 而 设计 的 语言 时 , 这 看 上 去 相 
当 神 奇 ， 我 们 通常 认为 这 是 人 类 独 有 的 一 种 能 

“自然 语言 ”与 “自然 世界 ”中 “自然 ”一 词 的 意义 相同 。 世 界 上 自然 的 、 进 化 的 事物 不 同 
于 人 类 设计 和 制造 的 机 械 的 、 人 工 的 东西 。 能 够 设计 和 构建 软件 来 阅读 和 处 理 大 家 现在 正在 阅读 
的 语言 ， 该 语言 正 是 关于 如 何 构建 软件 来 处 理 自然 语言 的 ， 这 非常 高 级 ， 也 十 分 神奇 。 

































































































































































Q@ 通常 认为 ， 自 然 语 言 处 理 包 括 自然 语言 理解 (Natural Language Understanding, NLU ) 和 自然 语言 生成 
( Natural Language Generation, NLG )。 一 一 译 者 注 

@ Ethnologue 是 一 个 Web 出 版 物 ， 它 维护 着 一 些 有 关 自 然 语言 的 统计 信息 。 

®© 详 见 标题 为 “How Google’s Site Crawlers Index Your Site - Google Search” 的 网 页 。 

@ 我 们 可 以 估计 出 实际 自然 语言 文本 的 数量 至 少 是 谷歌 索引 的 1000 倍 。 









































1.2 ”神奇 的 魔法 5 





为 了 让 后 续 处 理 更 加 容易 ， 我 们 只 关注 一 种 自然 语言 一 一 英语 。 当 然 ， 大 家 也 可 以 使 用 
从 本 书 中 学 到 的 技术 来 处 理 任何 语言 ， 其 至 对 于 这 种 语言 大 家 完全 不 懂 , 或 者 它 还 没有 被 考古 
学 家 和 语言 学 家 破译 。 本 书 也 将 展示 如 何 仅 仅 使 用 一 种 编程 语言 Python, 来 编写 程序 以 处 理 和 
生成 自然 语言 文本 。 

Python 从 一 开始 就 被 设计 成 一 种 可 读 的 语言 , 也 公开 了 很 多 其 内 部 语言 处 理 机 制 。 上 述 两 个 
寺 点 使 Python 成 为 学 习 自 然 语言 处 理 的 一 个 很 自然 的 选择 。 在 企业 级 环境 下 为 NLP 算法 构建 可 
维护 的 生产 流水 线 时 ,Python 也 是 一 种 很 棒 的 语言 , 在 单个 代码 库 上 有 很 多 贡献 者 。 甚 至 在 某 些 
可 能 的 地 方 ，Python 是 代替 数学 和 数学 符号 的 “通用 语言 ”。 毕 竞 ，Python 可 以 无 歧义 地 描述 数 
学 算法 ,设计 它 的 目标 就 是 针对 你 我 这 样 的 程序 员 ， 使 其 尽 可 能 地 具备 可 读 性 。 

























































































自然 语言 不 能 直接 被 翻译 成 一 组 精确 的 数学 运算 集合 , 但 是 它们 确实 包含 可 供 提 取 的 信息 和 
指令 。 这 些 信息 和 指令 可 以 被 存储 、 索 引 、 搜 索 或 立即 使 用 。 使 用 方式 之 一 可 能 是 生成 一 段 词语 
序列 对 某 条 语句 进行 回复 。 这 属于 后 面 将 要 构建 的 “对 话 引 擎 ”或 聊天 机 器 人 的 功能 。 

下 面 我 们 只 关注 英文 书面 文本 文档 和 消息 , 而 非 口语 。 这 里 绕 过 了 从 口语 到 文本 的 转换 一 一 
语音 识别 , 或 语音 转 文 本 ( 即 STT) 过 程 。 同 样 ， 我 们 也 略 过 语音 生成 或 称 文本 转 语音 ， 即 将 文 
本 转换 回 语音 的 过 程 。 当 然 , 由 于 存在 很 多 语音 转 文本 及 文本 转 语音 的 免费 库 ， 大 家 仍然 可 以 使 
用 本 书 学 到 的 内 容 来 构建 像 Siri 或 Alexa 一 样 的 语音 交互 界面 或 虚拟 助手 。Android 和 iOS 移动 
操作 系统 也 提供 了 高 质量 的 语音 识别 和 生成 API， 并 且 有 很 多 Python 包 也 能 在 笔记 本 电脑 或 服 
务 器 上 实现 类 似 的 功能 。 
语音 识别 系统 

如 果 你 想 自己 构建 一 个 定制 化 的 语音 识别 或 生成 系统 ， 那 么 这 项 任务 本 身 就 需要 一 整 本 书 来 介绍 。 
我 们 可 以 把 这 个 作为 练习 留 给 读者 。 要 完成 这 样 的 系统 ， 需 要 大 量 高 质量 的 标注 数据 ， 包 括 带 有 音标 拼 
写 注释 的 语音 记录 以 及 与 音频 文件 对 齐 的 自然 语言 转 写 文本 。 从 本 书 中 学 到 的 一 些 算法 可 能 会 对 建立 这 
样 的 系统 有 所 帮助 ， 但 大 部 分 语音 识别 和 算法 和 本 书 中 的 有 很 大 区 别 。 
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1.2.2 NLP 中 的 数学 


从 自然 语言 中 提取 有 用 的 信息 可 能 会 很 困难 , 这 需要 乏味 的 统计 记录 , 但 这 正 是 机 器 的 作用 
所 在 。 和 许多 其 他 技术 问题 一 样 ， 一旦 知道 答案 ,解决 起 来 就 容易 多 了 。 机 器 仍然 无 法 像 人 类 一 
样 精确 可 靠 地 执行 很 多 实际 的 NLP 任务 ， 如 对 话 和 阅读 理解 。 因 此 ， 大 家 需要 对 从 本 书 中 学 到 
的 算法 进行 调整 来 更 好 地 完成 一 些 NLP 任务 。 

然而 ， 在 执行 一 些 令 人 惊讶 的 精细 任务 上 ， 本 书 介绍 的 技术 已 经 足够 强大 ， 根 据 它们 构 























D 数学 符号 是 有 歧义 的 ， 参 见 维基 百科 文章 “Ambiguity” 的 “Mathematical notation” 一 节 。 
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建 的 机 器 在 精度 和 速度 上 都 超过 了 人 类 。 举 例 来 说 ， 大 家 可 能 猜 不 到 的 是 ， 在 对 单条 Twitter 
消息 进行 讽刺 识别 上 ,机 器 比 人 类 更 精确 "。 大 家 不 要 担心 , 由 于 人 类 有 能 力 保留 对 话 的 上 下 
文 信息 ， 因 此 仍然 更 善于 识别 连续 对 话 中 的 幽默 和 讽刺 。 当 然 ， 机 器 也 越 来 越 善于 保留 上 下 
文 。 如 果 大 家 想 尝试 超过 当前 最 高 水 平 的 话 ， 本 书 将 帮助 大 家 把 上 下 文 (元 数据 ) 融入 NLP 
流水 线 中 。 

一 旦 从 自然 语言 中 提取 出 结构 化 的 数值 型 数据 一 一 向 量 之 后 , 就 可 以 利用 各 种 数学 工具 和 机 
器 学 习 工 具 。 我 们 可 以 使 用 类 似 于 将 三 维 物 体 投影 到 二 维 计算 机 屏幕 的 线性 代数 方法 , 这 些 方法 
早 在 NLP 自 成 体系 之 前 就 被 计算 机 和 绘图 员 所 使 用 了 。 这 些 突破 性 的 想法 开启 了 一 个 “语义 ” 
分 析 的 世界 ， 即 让 计算 机 能 够 解释 和 存储 语句 的 “含义 ”"， 而 不 仅仅 是 对 其 中 的 词 或 字符 计数 。 
语义 分 析 和 统计 学 一 起 可 以 有 助 于 解决 自然 语言 的 歧义 性 , 这 里 的 歧义 性 是 指 词 或 短语 通常 具有 
多 重 含义 或 者 解释 。 

因此 ， 从 自然 语言 文本 中 提取 信息 和 构建 编程 语言 的 编译 器 完全 不 同 (这 一 点 对 大 家 来 说 很 
幸运 )。 目 前 最 有 前 景 的 技术 绕 过 了 正则 语法 (模式 ) 或 形式 语言 的 严格 规则 。 我 们 可 以 依赖 词语 
之 间 的 统计 关系 ， 而 不 是 逻辑 规则 表述 的 深层 系统 。 想 象 一 下 ， 如 果 必 须 通 过 笛 套 的 i£...then 
语句 树 来 定义 英语 语法 和 拼写 规则 ,大 家 能 撰写 足够 多 的 规则 来 处 理 词 、 字 母 和 标点 符号 一 起 组 
成 句子 的 每 一 种 可 能 方式 吗 ? 大 家 能 捕捉 语义 , 即 英语 语句 的 意义 吗 ? 虽然 规则 对 某 些 类 型 的 语 
句 有 用 , 但 可 以 想象 一 下 该 软件 是 多 么 的 有 局 限 性 和 脆弱 ，, 一些 事 先 不 曾 意 料 到 的 拼写 或 标点 符 
号 会 破坏 或 扰乱 基于 规则 的 算法 。 

此 外 ， 自 然 语言 还 有 一 个 更 难 解决 的 所 谓 “解码 ” 挑 成 。 用 自然 语言 说 话 和 写作 的 人 都 假定 
A ADE ( 听 或 者 读 ) 的 对 象 是 人 而 非 机 器 。 所 以 当 人 们 说 “早上 好 ”时 ,肯定 假想 对 方 已 经 对 
“早上 ”的 含义 有 所 了 解 ， 即 早上 不 仅 包 括 中 午 、 下 午 和 晚上 之 前 的 那个 时 段 ， 也 包括 午夜 之 后 
的 那个 时 段 。 同 时 ， 大 家 需要 知道 ， 这 些 词 既 可 以 代表 一 天 中 的 不 同时 间 ,， 根据 一 般 经 验 ， 也 可 
以 代表 一 天 中 的 一 段 时 间 。 可 以 假定 解码 器 知道 “早上 好 ”只 是 一 个 普通 的 问候 语 ， 而 没有 包含 
关于 “早上 ”的 任何 信息 ， 相 反 ， 它 反映 了 说 话 者 的 精神 状态 以 及 与 他 人 交谈 的 意愿 。 

这 种 关于 人 类 如 何 处 理 语言 的 思维 理论 后 来 被 证 实 是 一 个 强 有 力 的 假设 。 如 果 我 们 假设 人 类 
的 语言 “处 理 器 ”拥有 人 类 一 生 关 于 世界 的 常识 ,我 们 就 能 用 很 少 的 话 表达 很 多 信息 。 这 种 信息 
压缩 率 仍 非 机 器 的 能 力 可 及 。 在 NLP 流水 线 中 也 没有 明确 的 “思维 理论 ”可 以 参照 。 不 过 , 我 
们 将 在 后 面 的 章节 中 介绍 一 些 技术 , 这 些 技术 可 以 帮助 机 器 构建 常识 的 本 体 与 知识 库 , 它们 可 以 
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® Gonzalo - Ibanez 等 人 发 现 ， 即 使 是 受过 教育 和 培训 的 人 类 评判 员 ， 也 无 法 达到 他 们 在 ACM 论文 中 报告 
的 采用 简单 分 类 算法 达到 的 68% 的 精确 率 。 康 奈 尔 大 学 Matthew Cliché 开发 的 Sarcasm Detector 和 Web 
应 用 程序 也 达到 了 类 似 的 精确 率 ( >70% )。 

O 一 些 语法 规则 可 以 通过 计算 机 科学 抽象 中 的 有 限 状态 机 来 实现 。 正 则 语法 可 以 通过 正则 表达 式 来 实现 。 
Python 有 两 个 包 可 以 用 于 运行 正则 表达 式 有 限 状 态 机 ， 一 个 是 内 肉 的 re， 另 一 个 是 regex, WATE 
外 安装 ， 但 是 后 者 应 该 很 快 会 代替 前 者 。 有 限 状 态 机 就 是 一 棵 树 ， 包 括 面向 每 个 词 条 (字符 / 词 包 元 ) 
的 if...then... 语 句 以 及 机 带 必 须要 回应 或 生成 的 行为 动作 。 


























































































































13 实际 应 用 


用 于 理解 依赖 这 些 知识 


的 自然 语言 语句 。 
































1.3 ”实际 应 用 


自然 语言 处 理 无 处 不 在 。 它 是 如 此 普遍 ， 以 至 于 表 1-1 中 的 一 些 例子 可 能 会 出 乎 大 家 的 意料 。 




























































































表 1-1 各 种 类 型 的 NLP 应 用 
搜索 Web 文档 自动 补 全 

编辑 拼写 语法 风格 

对 话 聊天 机 器 人 助手 行程 安排 
写作 索引 用 语 索 引 目录 

电子 邮件 垃圾 邮件 过 滤 分 类 优先 级 排序 
文本 挖掘 摘要 知识 提取 医学 诊断 
法 律 法 律 断案 先例 搜索 传票 分 类 
新 闻 事件 检测 真相 核查 标题 排 字 
归属 lay el) 文学 取证 风格 指导 
情感 分 析 队 士 气 监控 产品 评论 分 类 客户 关怀 
行为 预测 金融 选举 预测 营销 

创作 电影 脚本 诗歌 歌词 





如 果 在 索引 网 页 或 文档 库 时 考虑 了 自然 语言 文本 的 含义 , 那么 搜索 引 





| 警 可 以 提供 更 有 意义 的 


结果 。 自 动 补 全 (autocomplete ) 功能 使 用 NLP 技术 来 完成 所 想 语 名 的 输入 ， 这 在 搜索 引擎 和 手 
机 键盘 中 十 分 常见 。 许 多 文字 处 理 器 、 浏 览 器 插件 和 文本 编辑 器 都 有 拼写 校正 、 语 法 检查 、 索 引 



































特别 是 近年 来 ， 还 出 现 了 写作 风格 指导 的 功能 。 一 些 对 话 引擎 〈 聊天 机 器 人 ) 使 用 
自然 语言 搜索 来 为 对 话 消息 查找 相应 的 回复 。 








在 聊天 机 器 人 和 虚拟 助手 中 ， 生 成 《撰写 ) 文本 的 NLP 流水 线 不 仅 可 以 用 来 撰写 简短 的 回 


复 ， 还 可 以 编写 长 得 多 的 文本 段落 。 美 联 社 使 有 
赛 




















电话 和 传真 这 两 个 传统 








® 2015 年 1 月 29 日 发 布 村 
































stories now”( 美 联 社 的 机 器 人 记者 正在 写 自 己 的 报道 )。 





目 NLP“ 机 器 人 记者 ”撰写 完整 的 金融 新 闻 和 体育 








芝 事 等 报道 。 也 许 是 因为 人 类 气象 学 家 使 用 了 带 有 NLP 功能 的 文字 处 理 器 来 起 草 天 气 预报 的 脚 
本 ， 机 器 人 编写 的 天 气 预报 听 起 来 和 家 乡 天 气 预报 员 的 播报 并 没有 什么 

早期 电子 邮件 系统 中 的 NLP 垃圾 邮件 过 滤器 助力 
通信 渠道 。 在 垃圾 邮件 过 滤器 和 





ARE 。 


包子 邮件 ， 使 其 在 20 tte 90 年 代 超越 了 
垃圾 邮件 制造 者 之 间 的 这 场 “ 猫 鼠 游戏 ” 


F 科 技 博客 The Verge 的 一 篇 文章 “AP’s ‘robot journalists’ are writing their own 
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中 ， 前 者 保持 了 优势 地 位 ， 但 是 在 像 社交 网 络 这 类 场景 下 并 非 如 此 。 据 估计 ， 有 关 2016 年 美国 
总 统 大 选 的 推 文中 有 20% 由 聊天 机 器 人 自动 撰写 而 成 。 这 些 机 器 人 放大 了 它们 的 所 有 者 或 开发 
者 的 观点 , 而 这 些 “ 倪 偏 ” 的 操纵 者 往往 是 政府 或 大 公司 , 他 们 具备 影响 主流 观点 的 资源 和 动机 。 

NLP 系统 不 仅 可 以 产生 简短 的 社交 网 络 帖子 ,还 可 以 用 来 在 亚马逊 和 其 他 网 站 撰写 很 长 的 电 
影 和 产品 评论 。 许 多 评论 都 是 NLP 流水 线 自动 产生 的 ， 尽 管 它 从 未 踏 入 过 电影 院 或 购买 过 它们 
正在 评论 的 产品 。 

Slack IRC 甚至 客服 网 站 上 都 有 聊天 机 器 人 一 一 在 这 些 场景 中 聊天 机 器 人 必须 处 理 带 有 歧义 
的 指令 或 问题 。 配备 语 音 识别 和 生成 系统 的 聊天 机 器 人 甚至 可 以 进行 长 篇 的 对 话 , 这 些 对 话 可 以 
不 限定 目标 或 者 针对 特定 目标 而 进行 ， 一 个 特定 目标 的 例子 就 是 在 本 地 餐馆 订餐 NLP 系统 可 
以 帮 一 些 公司 进行 电话 回复 , 这 些 公司 希望 系统 比 层 层 进 入 的 电话 树 更 好 用 , 并 且 不 希望 给 帮助 
客户 的 客服 人 员 付费 。 


注意 谷歌 IO 大 会 上 对 Duplex 系统 的 演示 表明 , 工程 师 和 经 理 们 都 忽视 了 教导 聊天 机 器 人 欺骗 人 类 
这 一 道德 问题 。 当 人 们 在 Twitter 和 其 他 匿名 社交 网 络 上 愉快 地 与 聊天 机 器 人 交流 时 ， 大 家 都 忽略 了 
这 个 难题 ， 因 为 在 这 些 社交 网 络 上 ， 机 器 人 不 会 与 我 们 分 享 它们 的 来 历 。 随 着 机 器 人 能 够 如 此 令 人 信 
AR eB, ATA Ae BY) aA BET, (A) (Homo Deus) ”中 尤 瓦尔 。 赫 拉 
利 (Yuval Harari ) 的 警示 性 预测 可 能 比 我 们 想象 的 来 得 更 早 。 


NLP 系统 可 以 作为 企业 的 电子 邮件 “接待 员 ” 或 管理 人 员 的 行政 助理 ， 这 些 助理 通过 电子 
Rolodex (一 种 名 片 短 的 品牌 ) 或 者 CRM ( 客户 关系 管理 系统 ) 安排 会 议 ， 记 录 概 要 细节 ， 并 代 
表 他 们 的 老板 通过 电子 邮件 与 他 人 互动 。 公 司 将 他 们 的 品牌 和 形象 交 由 NLP 系统 管理 ， 允 许 机 
需 人 执行 营销 和 消息 发 布 活动 。 更 有 甚 者 ， 一 些 缺 乏 经 验 、 胆 大 包 天 的 NLP 教科 书 作者 竟然 让 
机 器 人 在 他 们 的 书 中 撰写 若干 语句 。 关 于 这 一 点 我 们 稍 后 再 详细 讨论 。 








































































































14 计算 机 “ 眼 ”中 的 语言 


当 键入 “Good Morn’n Rosa” 时 ， 计 算 机 只 会 看 到 “01000111 0110 1111 01101111…” 的 二 进 制 
串 。 如 何 编写 聊天 机 器 人 程序 来 智能 地 响应 这 个 二 进 制 流 呢 ? 一 棵 腻 套 的 条 件 树 (if...else... 语 句 ) 
是 否 可 以 检查 这 个 流 中 的 每 一 位 并 分 别 进行 处 理 呢 ?” 这 样 做 相当 于 编写 了 一 类 特定 的 称 为 有 限 
状态 机 (finite state machine, FSM ) 的 程序 。 运 行 时 输出 新 的 符号 序列 的 FSM (如 Python 中 的 
str.translate AŽ ) 被 称 为 有 限 状 态 转换 机 (finite state transducer, FST )。 大 家 甚至 可 能 在 
自己 毫 不 知情 的 情况 下 已 经 建立 了 一 个 FSM。 大 家 写 过 正则 表达 式 吗 ? 它 就 是 我 们 在 下 一 节 中 
























































® 2016 年 10 月 18 日 的 《纽约 时 报 》 2016 年 11 月 的 《MIT 科技 评论 》 
D 谷歌 博客 在 2018 年 5 月 介绍 了 其 Duplex 系统 。 

© 参见 维基 百科 词 条 “AI control problem”。 

由 2017 年 3 月 10 日 WSJ 博 客 。 




















1.4 计算 机 “ 眼 ” 中 的 语言 9 


将 要 使 用 的 一 类 FSM， 同 时 它 也 给 出 了 一 种 可 能 的 NLP 方法 ， 即 基于 模式 的 方法 。 
如 果 你 决定 在 内 存 库 (数据库 ) 中 精确 搜索 完全 相同 的 位 、 字 符 或 词 串 ,， 并 使 用 其 他 人 过 去 
针对 该 语句 的 某 条 回复 ， 你 会 怎么 做 呢 ? 此 时 设想 一 下 如 果 语 句 中 存在 拼写 错误 或 变 体 该 怎么 
Dp? 这 种 情况 下 我 们 的 机 器 人 就 会 出 问题 。 并 且 , 位 流 不 是 连续 的 ,也 不 具备 容错 性 ， 它 们 要 人 么 
匹配 ， 要 么 不 匹配 ， 没 有 一 种 显而易见 的 方法 能 基于 两 个 位 流 的 含义 来 计算 它们 之 间 的 相似 性 。 
从 位 来 看 , “good” 与 “bad!” 的 相似 度 和 “good” 与 “okay” 的 相似 度 差不多 。 

但 是 , 在 给 出 更 好 的 方法 之 前 , 我 们 先 看 看 这 种 方法 的 工作 原理 。 下 面 我 们 将 构造 一 个 小 的 
正则 表达 式 来 识别 像 “Good morning Rosa” 这 样 的 问候 语 ， 并 做 出 合适 的 回复 , 我 们 将 构建 第 一 
个 微型 聊天 机 器 人 ! 






























































1.4.1 锁 的 语言 ( 正则 表达 式 ) 


令 人 惊讶 的 是 ， 不 起 眼 的 密码 锁 实际 上 是 一 台 简 单 的 语言 处 理 机 。 因 此 ， 如 果 你 对 机 械 感 
兴趣 的 话 ， 那 么 本 节 可 能 会 对 你 很 有 启发 性 。 当 然 ， 如 果 你 不 需要 机 械 的 类 比 来 帮助 理解 算法 和 
正则 表达 式 的 工作 原理 的 话 ， 那 么 可 以 跳 过 这 一 节 。 

读 完 这 部 分 后 , 你 会 对 自己 的 自行 车 密码 锁 有 新 的 看 法 。 密码 锁 当 然 不 能 阅读 和 理解 存放 在 
学 校 储 物 柜 里 的 课本 ， 但 它 可 以 理解 锁 的 语言 。 当 试图 “告诉 ” 它 一 个 “密码 ”组 合 时 ， 它 可 以 
理解 。 挂 锁 密 码 是 与 锁 语言 的 “语法 ”( 模式 ) 匹配 的 任何 符号 序列 。 更 重要 的 是 ， 挂 锁 可 以 判 
断 锁 “语句 ”是 否 匹 配 一 条 特别 有 意义 的 语句 ， 该 语句 只 有 一 条 正确 的 “回复 ": 松 开 U 形 搭 扣 
的 扣 环 ， 这 样 就 可 以 进入 锁 柜 了 。 

这 种 锁 语言 (正则 表达 式 ) 特别 简单 , 但 它 又 不 那么 简单 ,我 们 在 聊天 机 器 人 中 还 不 能 使 用 
它 。 我 们 倒是 可 以 用 它 来 识别 关键 短语 或 指令 来 解锁 特定 的 动作 或 行为 。 

例如 ， 我们 希望 聊天 机 器 人 能 够 识别 诸如 “Hello Rosa” 之 类 的 问候 语 ， 并 做 出 合适 的 回复 。 
这 种 语言 就 像 锁 语言 一 样 , 是 一 种 形式 语言 , 这 是 因为 它 对 如 何 编写 和 解释 一 条 可 接受 的 语句 有 
着 严格 的 规定 。 如 果 大 家 写 过 数学 公式 或 者 编写 过 某 种 编程 语言 的 表达 式 , 那么 就 算 已 经 写 过 某 
个 形式 语言 的 语句 了 。 

形式 语言 是 自然 语言 的 子 集 。 很 多 自然 语言 中 的 语句 都 可 以 用 形式 语言 的 语法 ( 如 正则 表达 式 ) 
来 匹配 或 者 生成 。 这 就 是 这 里 转 而 介绍 机 械 的 “ 味 哮 一 一 呼啦 ”(“click, whirr”)“ 锁 语言 的 原因 。 



































































































































1.4.2 ”正则 表达 式 


正则 表达 式 使 用 了 一 类 特殊 的 称 为 正则 语法 (regular grammar )“ 的 形式 语言 语法 。 正 则 

















@ 密码 锁 是 锁 的 一 种 ， 开 启 时 用 的 是 一 系列 的 数字 或 符号 。( 摘自 维基 百科 ) 一 一 译 者 注 
@ Cialdini 在 他 的 畅销 书 《 影 响 力 》( 1nfluence ) 中 提出 了 6 条 心理 学 原则 。 
© 正则 语法 、 上 下 文 无 关 、 有 关 语 法 中 的 语法 也 常常 称 为 文法 。 译 者 注 























10 第 1 章 NLP 概述 





语法 的 行为 可 预测 也 可 证 明 ， 而 且 足 够 灵活 ， 可 以 文 持 市 面 上 一 些 最 复杂 的 对 话 引 擎 和 聊天 
Plat A. Amazon Alexa 和 Google Now 都 是 依赖 正则 语法 的 主要 基于 模式 的 对 话 引 警 。 深 奥 、 
复杂 的 正则 语法 规则 通常 可 以 用 一 行 称 为 正则 表达 式 的 代码 来 表示 。Python 中 有 一 些 成 功 的 
聊天 机 器 人 框架 , 如 Will, 它们 完全 依赖 这 种 语言 来 产生 一 些 有 用 的 和 有 趣 的 行为 Amazon 
Echo, Google Home 和 类 似 的 复杂 而 又 有 用 的 助手 也 都 使 用 了 这 种 语言 ， 为 大 部 分 用 户 交 互 
提供 编码 逻辑 。 


注意 Python 和 Posix (Unix) 应 用 程序 (如 grep) 中 实现 的 正则 表达 式 并 不 是 真正 的 正则 语 
法 。 它 们 具有 一 些 语言 和 慑 辑 特性 ， 如 前 向 环视 (look-ahead ) 和 后 向 环视 (look-back )， 这 些 特性 
可 以 实现 座 辑 和 说 归 的 跳跃 ,但 是 这 在 正则 语法 中 是 不 允许 的 。 因 此 ， 上 述 正 则 表达 式 无 法 保证 一 
定 可 以 停机 ( 即 在 有 限 的 时 间 内 结束 ); 它们 有 时 会 “崩溃 "， 有 时 却 会 永远 运行 下 去 。 


大 家 可 能 会 吐 咕 :“ 我 听 说 过 正则 表达 式 ， 我 使 用 grep ， 但 那 只 是 用 来 搜索 而 已 !” 你 确实 
是 对 的 , 正则 表达 式 确实 主要 用 于 搜索 和 序列 匹配 。 但 是 任何 可 以 在 文本 中 查找 匹配 的 方法 都 非 
常 适合 用 于 对 话 。 一 些 聊天 机 器 人 ， 如 Wil1， 对 于 知道 如 何 回复 的 语句 ， 会 使 用 搜索 方式 在 用 
户 语句 中 查找 字符 序列 。 然 后 , 这 些 识别 出 的 序列 会 触发 一 段 事先 准备 好 的 回复 ,该 回复 满足 这 
个 特定 正则 表达 式 的 匹配 。 同 样 的 正则 表达 式 也 可 以 用 来 从 语句 中 提取 有 用 的 信息 。 聊 天 机 器 人 
可 以 把 这 些 信息 添加 到 知识 库 中 ， 而 该 知识 库 收集 了 有 关 用 户 或 者 用 户 所 描述 世界 的 知识 。 

处 理 这 种 语言 的 机 器 可 以 被 看 作 是 一 个 形式 
化 的 数学 对 象 ， 称 为 有 限 状 态 机 (FSM) 或 确定 
性 有 限 自 动机 (deterministic finite antomation ， 
DFA )。FSM 会 在 本 书 中 反复 出 现 ， 因 此 ， 不 用 深 aget 
人 研究 FSM 背后 的 理论 和 数学 ， 我 们 最 终 都 会 对 有 限 状 态 机 
它 的 用 途 很 有 感觉 。 对 于 那些 忍 不 住 想 进 一 步 了 
解 这 些 计算 机 科学 工具 的 读者 来 说 ,图 1-1 显示 
T FSM Æ “RE” WAIE. (bots) 世界 中 所 处 
的 位 置 。 下 面 的 “形式 语言 的 形式 数学 解释 ”部 
分 给 出 了 一 些 关 于 形式 语言 的 更 正式 的 细节 。 


形式 语言 的 形式 数学 解释 
JR e ZRS (Kyle Gorman ) 对 编程 语言 是 像 下 面 这 样 描 述 的 。 
E AZ% ( 如 果 不 是 所 有 的 ) 编程 语言 都 来 自 上 下 文 无 关 语言 这 一 类 。 
E 上下文 无 关 语言 使 用 上 下 文 无 关 语法 进行 高 效 的 解析 。 
国正 则 语言 也 可 以 有 效 地 进行 解析 ， 并 广泛 用 于 字符 串 匹 配 的 计算 中 。 
四 ”字符 串 匹配 应 用 程序 基本 不 需要 上 下 文 无 关 的 表达 能 力 。 


























、 下 推 自动 机 








图 1-1 自动 机 的 类 型 



















































































QD 2016 年 7 月 20 日， 由 于 某 个 正则 表达 式 “ 崩 江 ” 导 致 Stack Exchange 宕 机 了 30 分 钟 。 
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国有 许多 类 型 的 形式 语言 ， 下 面 给 出 了 其 中 的 一 些 ( 按 复杂 性 从 高 到 低 排列 ) *: 
9 递归 可 枚 举 的 ; 























@ 上 下 文 有 关 的 
@ 上 下 文 无 关 的 
4 正则 。 








而 对 自然 语言 是 像 下 面 这 样 描述 的 。 
eE ”不 是 正则 的 。” 
I apa A © 
eE HETER AEX. ° 
a 参考 标题 为 “Chomsky hierarchy - Wikipedia” “PIT. 
b 参考 Shuly Wintner 的 文章 “English is not a regular language” o 
c 参考 Shuly Wintner 的 文章 “Is English context-free?” o 
d 参考 标题 为 “1.11. Formal and Natural Languages 一 How to Think like a Computer Scientist: Interactive 


Edition” 的 网 页 。 












































1.4.3 一 个 简单 的 聊天 机 器 人 

下 面 我 们 快速 粗略 地 构建 一 个 聊天 机 器 人 。 这 个 机 器 人 能 力 不 是 很 强 , 但 是 仍然 需要 大 量 对 
英语 这 门 语言 的 思考 。 我 们 还 必须 手工 编写 正则 表达 式 ， 以 匹配 人 们 可 能 的 说 话 方式 。 但 是 , 大 
家 如 果 觉 得 自己 无 法 编写 出 这 段 Python 代码 的 话 ， 也 不 要 担心 。 大 家 不 需要 像 本 示例 一 样 考虑 
人 们 说 话 的 所 有 不 同方 式 , 甚至 不 需要 编写 正则 表达 式 来 构建 一 个 出 色 的 聊天 机 器 人 。 我 们 将 在 
后 面 的 章节 中 介绍 如 何在 不 硬 编码 任何 内 容 的 情况 下 构建 自己 的 聊天 机 器 人 。 现 代 聊 天 机 器 人 可 
以 通过 阅读 ( 处 理 ) 一 堆 英 语文 本 来 学 习 ， 后 面 的 章节 中 会 给 出 具体 的 做 法 。 
这 种 基于 模式 匹配 的 聊天 机 器 人 是 严格 受 探 的 聊天 机 器 人 的 一 个 例子 。 在 基于 现代 机 器 学 习 
的 聊天 机 器 人 技术 发 展 之 前 ,基于 模式 匹配 的 聊天 机 器 人 十 分 普 过 。 我们 在 这 里 介绍 的 模式 匹配 
方法 的 一 个 变 体 被 用 于 像 亚 马 逊 的 Alexa 一 样 的 聊天 机 器 人 和 其 他 虚拟 助手 中 。 

现在 我 们 来 构建 一 个 FSM， 也 就 是 一 个 可 以 “说 ” 锁 语 言 〈 正 则 语言 ) 的 正则 表达 式 。 我 
们 可 以 通过 编程 来 理解 诸如 “01-02-03” 这 样 的 锁 语 言语 句 。 更 好 的 一 点 是 ， 我 们 希望 它 能 理解 
诸如 “open sesame”( 芝麻 开门 ) BK “hello Rosa” ( Rosa 你 好 ) 之 类 的 问候 语 。 杂 社会 聊天 机 器 
人 的 一 个 重要 特点 是 能 够 回复 别人 的 问候 。 在 高 中 , 老师 经 常 因为 学 生 在 冲 进 教室 上 课时 忽略 这 
样 的 问候 语 而 责备 其 不 太 礼 狐 。 我 们 当然 不 希望 我 们 这 个 亲切 的 聊天 机 器 人 也 这 样 。 

在 机 器 通信 协议 中 , 我 们 定义 了 一 个 简单 的 握手 协议 , 每 条 消息 在 两 台 机 器 之 间 来 回 传递 之 
后 , 都 有 一 个 ACK (确认 ) 信和 号。 但 是 , 我 们 这 里 的 机 器 将 会 和 那些 说 “Good morning, Rosa” ( Rosa 
早上 好 ) 之 类 的 用 户 进行 互动 。 我 们 不 希望 它 像 对 话 或 Web 浏览 会 话 开 始 时 同步 调制 解 调 咒 或 
HTTP 连接 而 发 出 一 串 嘿嘿 声 、 哗 哗 声 或 ACK 消息 , 相反 , 我 们 在 对 话 握手 开始 时 使 用 正则 表达 
式 来 识别 几 种 不 同 的 问候 语 : 
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Python 中 有 两 个 “官方 ”的 正则 表达 式 包 ， 这 里 使 用 的 
是 re 包 ， 因 为 它 安装 在 所 有 版 本 的 Python 中 。 而 regex 
包 只 在 较 新 版 本 的 Python 中 安装 , 我 们 将 会 在 第 2 章 看 
到 ， 与 re 相 比 ，regex 的 功能 要 强大 很 多 




















自 








>>> import re 
>>> r = "(hilhellolhey) [ ]*([a-z]*)" 
>>> re.match(r, 'Hello Rosa', 


<_sre.SRE Match object; span=(0, 10), match='Hello Rosa'> 

>>> re.match(r, "hi ho, hi ho, it's off to work ...", flags=re.IGNORECASE) 

<_sre.SRE Match object; span=(0, 5), match='hi ho'> 

>>> re.match(r, "hey, what's up", flags=re.IGNORECASE) 为 使 正则 表达 式 更 简 

<_sre.SRE Match object; span=(0, 3), match='hey> 单 ， 通 常 忽略 文本 字 
符 的 大 小 写 


出 现 0 次 或 多 次 的 情况 下 都 可 以 匹配 。 
此 ,这 上 
a “hey” 开头、 后 面 跟着 任意 数量 的 空格 
字符 再 


flags=re.IGNORECASE) 





1" 表示“OR"”，' AN* ' 表 示 前 面 的 字符 在 














有 的 正则 表达 式 将 匹配 以 “hi”“hello” 














I 上 任意 数量 字母 的 问候 语 





<t 





一 一 一 一 一 一 一 











在 正则 表达 式 中 ,我们 可 以 使 用 方 括号 指定 某 个 字符 类 ， 还 可 以 使 用 短 横 线 ( - ) 来 表示 字 





符 的 范围 而 不 需要 逐个 输入 。 因 此 ， 正 则 表达 式 " [a-z]" 


af 


== 





匹配 任何 单个 小 写字 母 ， 即 “a” 到 














“z”。 字 符 类 后 面 的 星 号 ('*' ) 表示 可 以 匹配 任意 数量 
下 面 我 们 把 正则 表达 式 写 得 更 细致 一 些 


EF 








in 


的 





已 
By 


于 该 字符 类 的 连续 字符 。 


以 匹配 更 多 的 问候 语 : 





可 以 编译 正则 表达 式 , BOR 
j 它 们 时 指定 选项 〈 或 标志 


f 


>>> 4 r"[%a-z]* (Lylo| [h'] ?ello|ok|hey| (good 
naa r"afternoon|even[gin']{0,3})) [\s,7:]{ 
>>> re_greeting re.compile(r, 


>>> re_greeting.match('Hello Rosa") 





<_sre.SRE Match object; span=(0, 

>>> re_greeting.match('Hello Rosa') .groups() 
('Hello', None, None, 'Rosa') 

>>> re_greeting.match("Good morning Rosa") 
<_sre.SRE Match object; span=(0, 


matc 
matc 

"Go 
matc 


>>> re_greeting. h("Good Manning Rosa") 
>>> re_greeting. 
('Good evening', 


>>> re_greeting. 


od Ty "Rosa') 
h("Good Morn'n Rosa") 


"evening', 





<_sre.SRE Match object; span=(0, 
>>> re_greeting.match("yo Rosa") 
<_sre.SRE Match object; span=(0, 7), match='yo Rosa'> 


这 里 的 聊天 机 器 人 可 以 将 问候 语 的 不 同 部 分 分 成 不 同 的 组 ， 
但 是 它 不 会 知道 Rosa 是 一 个 著名 的 姓 ， 


次 使 


了 


flags=re.IGNORECASE) 








就 不 必 在 














Joe? 
3} ( 


h('Good evening Rosa Parks') .groups () 


16), match="Good Morn'n Rosa"> 





式 来 匹配 名 后 面 的 任何 字 
提示 “引号 前 的 “Tr” 指 定 的 是 一 个 原始 字符 


(morn[gin'] {0,3} "\ 
a-z]{1,20})" 








10), match='Hello Rosa'> 


注意 ,这 个 正则 表达 式 无 法 
识别 (匹配 ) 录入 错误 


17), match="Good morning Rosa"> 


< 











为 为 这 里 没有 一 个 模 














符 


串 ， 而 不 是 正则 表达 式 。 使 用 Python 原始 字符 串 ， 可 


DL RAPALA eB EAR BER, LAE A RY EM RARE AA RA 


By he 


CNN"), 这 些 特殊 字符 


包括 空格 ("\\、" ) 和 花 括号 或 称 车 把 符 ("\\{ \\}" ) 等 。 


上 面 的 第 一 行 代码 ( 即 正则 表达 式 ) 中 包含 了 很 多 逻辑 ， 它 完成 了 令 人 惊讶 的 一 系列 问 
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候 语 ， 但 它 忽略 了 那个 “Manning” 的 录入 错误 ， 这 是 NLP 很 难 的 原因 之 一 。 在 机 器 学 习 和 
医学 诊断 中 ， 这 被 称 为 假 阴 性 (false negative) 分 类 错误 。 不 幸 的 是 ， 它 也 会 与 人 类 不 太 可 
能 说 的 话 相 匹 配 ， 即 出 现 了 假 阳 性 (false positive ) 错误 ， 这 同样 也 是 一 件 糟糕 的 事情 。 假 阳 
性 和 假 阴 性 错误 的 同时 存在 意味 着 我 们 的 正则 表达 式 既 过 于 宽松 又 过 于 严格 。 这 些 错误 可 能 
会 使 机 器 人 听 起 来 有 点 儿 迟 钝 和 机 械 化 ,我们 必须 做 更 多 的 努力 来 改进 匹配 的 短语 ， 使 机 器 
人 表现 得 更 像 人 类 。 
并 且 , 这 项 桔 燥 的 工作 也 不 太 可 能 成 功 捕 所 到 人 们 使 用 的 所 有 倡 语 和 可 能 的 拼写 错误 。 幸 运 
的 是 , 手工 编写 正则 表达 式 并 不 是 训练 聊天 机 器 人 的 唯一 方法 。 请 继续 关注 后 面 的 内 容 ( 本 书 的 
其 余部 分 ) 因此 ， 我 们 只 需 在 对 聊天 机 器 人 的 行为 进行 精确 控制 ( 如 在 向 手机 语音 助手 发 出 合 
令 ) 时 才 使 用 正则 表达 式 。 

下 面 我 们 继续 ,通过 添加 一 个 输出 生成 器 最 终 得 到 一 个 只 用 一 种 技巧 ( 正则 表达 式 ) 的 聊天 
机 器 人 。 添 加 输出 生成 器 的 原因 是 它 总 需要 说 些 什么 。 下 面 我 们 使 用 Python 的 字符 串 格式 化 工 
具 构 建 聊天 机 器 人 回复 的 模板 : 


>>> my_names = set(['rosa', 'rose', 'chatty', 'chatbot', 'bot', 
















































































SeA 'chatterbot'!']) 

>>> curt names = set(['hal', 'you', 'u']) 

a ets EN ie 我 们 还 不 知道 机 器 人 的 聊天 对 象 是 谁 ， 
i me EG 这 里 我 们 也 不 担心 这 一 点 


Ss if match: 
at_name = match.groups() [-1] 
if at name in curt _names: 
print ("Good one.") 
elif at_name.lower() in my_names: 
print ("Hi {}, How are you?". format (greeter_name) ) 

所 以 , 如 果 你 运行 这 一 小 段 脚 本 , H “Hello Rosa” 这样 的 短语 和 机 器 人 聊天 , 她 会 回答 “How 
are you”。 如 果 用 一 个 略 显 粗鲁 的 名 字 来 称呼 聊天 机 器 人 的 话 ， 她 回复 就 会 不 太 积极 ,但 也 不 会 
过 于 激动 ,而 是 试图 鼓励 用 户 用 更 礼貌 的 语言 来 交谈 。 如 果 你 指名 道 姓 地 说 出 可 能 正在 监听 某 条 
共 线 电话 或 某 个 论坛 上 的 对 话 的 人 名 ， 该 机 器 人 就 会 保持 安静 ， 并 人 允许 你 和 任何 要 找 的 人 聊天 。 
显然 这 里 并 没有 其 他 人 在 监视 我 们 的 input () 行 , 但 是 如 果 这 是 一 个 更 大 聊天 机 器 人 中 的 函数 
的 话 ， 那 么 就 需要 处 理 这 类 事情 。 

受 计算 资源 所 限 ， 早 期 的 NLP 研究 人 员 不 得 不 使 用 人 类 大 脑 的 计算 能 力 来 设计 和 手动 调整 
复杂 的 逻辑 规则 来 从 自然 语言 字符 串 中 提取 信息 。 这 称 为 基于 模式 (pattern ) 的 NLP 方法 。 这些 
模式 就 像 正则 表达 式 那 样 ， 可 以 不 仅仅 是 字符 序列 模式 。NLP 还 经 常 涉及 词 序列 、 词 性 或 其 他 高 
级 的 模式 。 核 心 的 NLP 构建 模块 ( 如 词 干 还 原 工具 和 分 词 器 ) 以 及 复杂 的 端 到 端 NLP 对 话 引擎 
(聊天 机 器 人 )( 如 ELIZA ) 都 是 通过 这 种 方式 ， 即 基于 正则 表达 式 和 模式 匹配 来 构建 的 。 基 于 模 
式 匹 配 NLP 方法 的 艺术 技巧 在 于 ,使 用 优雅 的 模式 来 获得 想 要 的 内 容 ， 而 不 需要 太 多 的 正则 表 
达 式 代码 行 。 
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经 典 心智 计算 理论 ”这 种 经 典 的 NLP 模式 匹配 方法 是 建立 在 心智 计算 理论 (computional theory of 
mind, CTM ) 的 基础 上 的 。CTM 假设 类 人 NLP 可 以 通过 一 系列 处 理 的 有 限 座 辑 规则 集 来 完成 。 在 
世纪 之 交 ， 神 经 科学 和 NLP 的 进步 导致 了 心智 “连接 主义 ”理论 的 发 展 ， 该 理论 允许 并 行 流水 线 
同时 处 理 自然 语言 ， 就 像 在 人 工 神 经 网 络 中 所 做 的 那样 。 


在 第 2 章 中 , 我 们 将 学 习 更 多 基于 模式 的 方法 , 例如 , 用 于 词 干 还 原 的 Porter 工具 和 用 于 分 词 
的 Treebank 分 词 顺 。 但 是 在 后 面 的 章节 中 ， 我 们 会 利用 现代 计算 资源 以 及 更 大 的 数据 集 ， 来 简化 
这 种 费力 的 手工 编码 和 调 优 。 

如 果 大 家 新 接触 正则 表达 式 ， 想 了 解 更 多 ,那么 可 以 查看 附录 B 或 Python 正则 表达 式 的 
在 线 文档 。 但 现在 还 不 需要 去 理解 它们 ， 我 们 将 利用 正则 表达 式 构 建 NLP 流水 线 ， 并 提供 相 
关 示 例 。 因 此 ， 大 家 不 要 担心 它们 看 起 来 像 是 胡言 乱 语 。 人 类 的 大 脑 非常 善于 从 一 组 例子 中 进 
行 归纳 总 结 ， 我 相信 在 本 书 的 最 后 这 一 切 都 会 变 得 清晰 起 来 。 事 实证 明 ， 机 器 也 可 以 通过 这 种 
方式 学 习 。 



























































1.4.4 ” 另 一 种 方法 


有 没有 一 种 统计 或 机 器 学 习 方 法 可 以 替代 上 面 基于 模式 的 方法 ”如果 有 足够 的 数据 , 我 们 能 
否 做 一 些 不 一 样 的 事情 ?如 果 我 们 有 一 个 巨大 的 数据 库 , 该 数据 库 由 数 千 甚至 上 百 万 人 类 的 对 话 
数据 构成 ,这些 数据 包括 用 户 所 说 的 语句 和 回复 , 那 又 会 怎么 样 呢 ? 构建 聊天 机 需 人 的 一 种 方法 
是 ,在 数据 库 中 搜索 与 用 户 对 聊天 机 器 人 刚刚 “说 过 ”的 话 完全 相同 的 字符 串 。 难 道 我 们 就 不 能 
用 其 他 人 过 去 说 过 的 话 作为 回复 吗 ? 

但 是 想象 一 下 ， 如 果 语 句 中 出 现 一 个 书写 错误 或 变异 , 会 给 机 器 人 带 来 多 大 的 麻烦 。 位 和 字 
符 序列 都 是 离散 的 。 它 们 要 么 匹配 ， 要 人 么 不 匹配 。 然 而 ,我 们 希望 机 器 人 能 够 度量 字符 序列 之 间 
的 意义 差异 。 

当 使 用 字符 序列 匹配 来 度量 自然 语言 短语 之 间 的 距离 时 , 我 们 经 常会 出 错 。 具 有 相似 含义 的 
短语 ， 如 good 和 okay， 通 常会 有 不 同 的 字符 序列 ， 当 我 们 通过 清点 逐个 字符 的 匹配 总 数 来 计算 
距离 时 ， 它 们 会 得 到 较 大 的 距离 。 而 对 于 具有 完全 不 同 含义 的 序列 ， 如 bad 和 bar， 当 我 们 使 用 
数值 序列 间 的 距离 计算 方法 来 度量 它们 的 距离 时 ， 可 能 会 得 到 过 于 接近 的 结果 。 像 杰 卡 德 距离 
(Jaccard distance )、 莱 文 斯 坦 距离 (Levenshtein distance ) 和 欧 几 里 得 距离 (Euclidean distance ) 
这 样 的 计算 方法 有 时 可 以 为 结果 添加 足够 的 “模糊 性 ”， 以 防止 聊天 机 器 人 犯 微小 的 拼写 错误 。 
但 是 ， 当 两 个 字符 串 不 相似 时 ， 这些 度量 方法 无 法 捕捉 它们 之 间 关 系 的 本 质 。 它 们 有 时 也 会 把 拼 
写 上 存在 小 差异 的 词 紧密 联系 在 一 起 , 而 这 些小 差异 可 能 并 不 是 真正 的 拼写 错误 ,如 bad 和 bar. 

为 数值 序列 和 向 量 设计 的 距离 度量 方法 对 一 些 NLP 应 用 程序 来 说 非常 有 用 ， 如 拼写 校正 屁 
和 专 有 名 词 识 别 程序 。 所 以 ， 当 这 些 距 离 度量 方法 有 意义 时 ,我 们 使 用 这 些 方法 。 但是， 针对 那 
些 我 们 对 自然 语言 的 含义 比 对 拼写 更 感 兴趣 的 NLP 应 用 程序 来 说 ， 有 更 好 的 方法 。 对 于 这 些 NLP 
应 用 程序 ,我 们 使 用 自然 语言 词 和 文本 的 向 量 表示 以 及 这 些 向 量 的 一 些 距离 度量 方法 。 下面 , 我 
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们 一 方面 讨论 这 些 不 同 的 向 量 表示 以 及 它们 的 应 用 ， 另 一 方面 我 们 将 逐一 向 读者 介绍 每 种 方法 。 

我 们 不 会 在 这 个 令 人 困惑 的 二 进 制 逻辑 世界 里 符 太 和 久 , 但 是 可 以 想象 一 下 , 我 们 是 第 二 次 世 
界 大 战 时 期 著名 的 密码 破译 员 玛 维 斯 . 贝 特 (Mavis Batey )， 我 们 在 布 莱 切 利 公园 (Bletchley Park ) 
刚刚 收 到 了 从 两 名 德国 军官 之 间 的 通信 中 截获 的 二 进 制 莫 尔 斯 码 (Morse code ) 消息 。 它 可 能 是 
万 得 战争 的 关键 。 那 么 我 们 从 哪里 开始 呢 ? 我 们 分 析 的 第 一 步 是 对 这 些 位 流 做 一 些 统计 ， 看 看 是 否 
能 找到 规律 。 我 们 可 以 首先 使 用 莫 尔 斯 码 表 (或 者 在 我 们 的 例子 中 使 用 ASCII K ) 为 每 组 位 分 配 字 
EE, 然后， 如 果 字 符 看 上 去 胡言 乱 语 也 不 奇怪 ， 因 为 它们 是 提交 给 二 战 中 的 计算 机 或 译 码 机 的 字 
符 。 我 们 可 以 开始 计数 、 在 字典 中 查找 短 序列 ， 这 部 字典 收集 了 所 有 我 们 以 前 见 过 的 词 ， 每 次 查 
到 序列 就 在 字典 中 的 该 条 目 旁 边 做 一 个 标记 。 我 们 还 可 以 在 其 他 记录 本 中 做 一 个 标记 来 标明 词 出 
现在 哪 条 消息 中 ， 并 为 以 前 读 过 的 所 有 文档 创建 百科 全 书 式 的 索引 。 这 个 文档 集合 称 为 语料库 
(corpus )， 索 引 中 列 出 的 词 或 序列 的 集合 称 为 词 库 (lexicon )。 

如 果 我 们 足够 幸运 ， 没 有 生活 在 战争 年 代 ， 所 看 到 的 消息 没有 经 过 严格 加 密 ， 那 么 我 们 
将 在 上 述 德语 词 计数 中 看 到 与 用 于 交流 类 似 消 息 的 英语 词 计数 相同 的 模式 。 不 像 密码 学 家 试 
图 破译 截获 的 德语 莫 尔 斯 码 ， 我 们 知道 这 些 符 号 的 含义 是 一 致 的 ， 不 会 随 着 每 次 键 点 击 而 改 
变 以 迷惑 我 们 。 这 种 枯燥 的 字符 和 词 计 数 正 是 计算 机 无 须 思考 就 能 做 的 事情 。 令 人 惊讶 的 是 ， 
这 几乎 足以 让 机 器 看 起 来 能 理解 我 们 的 语言 。 它 甚至 可 以 对 这 些 统计 向 量 进行 数学 运算 ， 这 
些 向 量 与 我 们 人 类 对 这 些 短语 和 词 的 理解 相 吻 合 。 当 我 们 在 后 面 的 章节 中 介绍 如 何 使 用 
Word2vec 来 教 机 器 学 习 我 们 的 语言 时 ， 它 可 能 看 起 来 很 神奇 ， 但 事实 并 非 如 此 ， 这 只 是 数学 
和 计算 而 已 。 

但 是 我 们 想 一 下 , 刚才 在 努力 统计 收 到 消息 中 的 词 信息 时 , 我 们 到 底 丢 失 了 哪些 信息 ? 我 们 
将 词 装 箱 并 将 它们 存储 为 位 向 量 ， 就 像 硬币 或 词 条 分 拣 机 一 样 ,后 者 将 不 同 种 类 的 词 条 定向 到 一 
边 或 男 一 边 , 形成 一 个 级 联 决策 , 将 它们 堆积 在 底部 的 箱子 中 。 我 们 的 分 拣 机 必须 考虑 数 十 万 种 
( 即使 不 是 数 百 万 种 的 话 ) 可 能 的 词 条 “面额 "*， 每 种 面额 对 应 说 话 人 或 作家 可 能 使 用 的 一 个 词 。 
我 们 将 每 个 短语 、 句 子 或 文档 输入 词 条 分 拣 机 ， 其 底部 都 会 出 来 一 个 向 量 , 向 量 的 每 个 覃 中 都 有 
词 条 的 计数 值 。 其 中 的 大 多 数 计数 值 都 为 零 ， 即 使 对 于 宛 长 的 大 型 文档 也 是 如 此 。 但 是 目前 为 目 
我 们 还 没有 丢失 任何 词 , 那么 我 们 到 底 丢 失 了 什么 ?大 家 能 否 理解 以 这 种 方式 呈现 出 的 文档 ?也 
就 是 说 ,把 语言 中 每 个 词 的 计数 值 呈现 出 来 ,而 不 把 它们 按照 任何 序列 或 顺序 排列 。 我 对 此 表示 
怀疑 。 当 然 ， 如 果 只 是 一 个 简短 的 句子 或 推 文 , 那么 可 能 在 大 多 数 情况 下 我 们 都 能 把 它们 重新 排 
列 成 其 原始 或 期 望 的 顺序 和 意义 。 

下 面 给 出 的 是 在 NLP 流水 线 中 如 何在 分 词 器 〈 见 第 2 章 ) 之 后 加 入 词 条 分 拣 机 的 过 程 。 这 
里 的 词 条 分 拱 机 草图 中 包含 了 一 个 停 用 词 过 滤器 和 一 个 罕见 词 过 滤器 。 字符 串 从 顶部 流入 , 词 袋 
向 量 从 底部 词 条 栈 中 词 条 的 高 低 堆 县 中 创建 。 

事实 证 明 , 机 咒 可 以 很 好 地 处 理 这 种 词 袋 , 通过 这 种 方式 能 够 收集 即便 是 中 等 长 度 的 文档 的 
大 部 分 信息 内 容 。 在 词 条 排序 和 计数 之 后 ,每 篇 文档 都 可 以 表示 为 一 个 向 量 ， 即 该 文档 中 每 个 词 
或 词 条 的 整数 序列 。 图 1-2 中 给 出 了 一 个 粗略 的 示例 ， 后面 在 第 2 章 会 给 出 词 袋 向 量 的 一 些 更 有 
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用 的 数据 结构 。 





FE 


词 袋 向 量 





图 1-2” 词 条 分 拣 托 盘 

这 是 我 们 给 出 的 语言 的 第 一 个 向 量 空间 模型 。 这些 栈 和 它们 包含 的 每 个 词 的 数目 被 表示 成 一 
个 长 向 量 ， 该 向 量 包含 了 许多 0、 一 些 1 或 2， 这些 数 字 散 落 在 词 所 属 栈 出 现 的 位 置 。 这 些 词 的 
所 有 组 合 方式 构成 的 向 量 称 为 向 量 空间 。 该 空间 中 向 量 之 间 的 关系 构成 了 我 们 的 模型 ,这 个 模型 
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试图 预测 这 些 词 出 现在 各 种 不 同 的 词 序列 〈 通常 是 句子 或 文档 ) 集合 中 的 组 合 。 在 Python 中 ， 
我 们 可 以 将 这 些 稀 琉 的 〈 大 部 分 元 素 都 为 空 ) 向 量 (数值 列表 ) 表示 为 字典 。Python 中 的 Counter 
是 一 种 特殊 的 字典 ， 它 存储 对 象 ( 包括 字符 串 )， 并 按 我 们 想 要 的 方式 为 对 象 计数 : 


>>> from collections import Counter 





























>>> Counter ("Guten Morgen Rosa".split()) 
Counter({'Guten': 1, 'Rosa': 1, 'morgen': 1}) 
>>> Counter("Good morning, Rosa!".split()) 
Counter({'Good': 1, 'Rosa!': 1, 'morning,': 1}) 


大 家 可 能 会 想到 一 些 分 拣 这 些 词 条 的 方法 ,我 们 会 在 第 2 章 中 实现 这 一 点 。 大 家 也 可 能 会 想 ， 
这 些 稀 玻 高 维 向 量 (许多 栈 ， 每 个 可 能 的 词 对 应 一 个 栈 ) 对 语言 处 理 不 是 很 有 用 。 但 是 对 于 一 些 
引起 行业 变革 的 工具 ， 如 我 们 将 在 第 3 章 中 讨论 的 垃圾 短信 过 滤器 ， 它 们 已 经 足够 好 用 了 。 

可 以 想象 ， 我 们 把 能 找到 的 所 有 文档 、 语 句 、 名 子 甚 至 单个 词 ， 一 个 一 个 地 输 到 这 人 台 机 器 。 
我 们 会 在 每 个 语句 处 理 完 之 后 ,对 底部 每 个 模 中 的 词 条 计数 , 我 们 称 之 为 该 语句 的 向 量 表示 。 机 
器 以 这 种 方式 产生 的 所 有 可 能 的 向 量 称 为 向 量 空间 。 这 种 表示 文档 、 语 句 和 词 的 模型 称 为 向 量 空 
间 模 型 。 它 允许 我 们 使 用 线性 代数 来 对 这 些 向 量 进行 运算 ， 计 算 距 离 和 自然 语言 语句 的 统计 信息 ， 
这 些 信息 有 助 于 我 们 用 更 少 的 人 工 编码 来 解决 更 广泛 的 问题 , 同时 也 使 得 NLP 流水 线 更 加 强大 。 

一 个 关于 词 袋 向 量 序列 的 统计 学 问题 是 ， 在 特定 的 词 袋 下 最 可 能 出 现 的 词组 合 是 什么 ? 或 
者 ,更 进一步 ， 如果 用 户 输入 一 个 词 序列 , 那么 数据 库 中 最 接近 用 户 提供 的 词 袋 向 量 的 词 袋 是 什 
A? 这 其 实 是 一 个 搜索 查询 。 输 入 词 是 用 户 可 能 在 搜索 框 中 键入 的 词 ， 最 接近 的 词 袋 向 量 对 应 于 
要 查找 的 目标 文档 或 网 页 。 高 效 回答 上 述 两 个 问题 的 能 力 足 以 构建 一 个 机 器 学 习 聊 天 机 器 人 , 随 
着 我 们 给 它 提供 的 数据 越 来 越 多 ， 它 也 会 变 得 越 来 越 好 。 

但 是 等 一 下 ,也许 这 些 向 量 不 像 大 家 以 前 用 过 的 任何 向 量 。 它 们 的 维度 非常 高 。 从 一 个 大 型 
语料库 中 得 到 的 3-gram 词汇 表 可 能 有 数 百 万 个 维度 。 在 第 3 章 中 ,我 们 将 讨论 “ 维 数 灾 难 ” 和 
高 维 向 量 难以 处 理 的 其 他 一 些 性 质 。 




































































































































































15 超 空 间 简 述 


在 第 3 章 中 , 我 们 将 介绍 如 何 将 词 合并 到 更 小 的 向 量 维 数 中 ,以 缓解 维 数 灾难 问题 ， 并 可 能 
为 我 所 用 。 当 将 这 些 向 量 相互 投影 以 确定 向 量 对 之 间 的 距离 时 , 这 将 是 对 它们 语义 相似 性 而 不 是 
统计 性 词 用 法 的 合理 估计 。 这 个 向 量 距离 度量 方法 称 为 余弦 距离 ,我们 会 在 第 3 章 中 讨论 这 一 距 
离 , 然后 在 第 4 章 中 展示 它 在 降 维 后 的 主题 向 量 上 的 真正 威力 。 我 们 甚至 可 以 将 这 些 向 量 投影 到 
二 维 平面 上 (更 准确 的 说 法 是 铭 入 )， 以 便 在 图 表 中 对 它们 进行 观察 ， 看 看 我 们 的 大 脑 是 否 能 从 
中 找到 某 些 模式 。 然后, 我们 可 以 教 计算 机 识别 这 些 模 式 , 并 以 反映 产生 这 些 向 量 的 词 的 隐 性 仿 
义 的 方式 对 其 进行 处 理 。 

想象 一 个 人 类 可 能 会 写 的 所 有 推 文 、 消 息 或 句子 。 尽 管 我 们 确实 会 不 断 重 复 自 己 写 过 的 东西 ， 
但 仍然 有 太 多 的 可 能 性 。 当 这 些 词 条 分 别 被 视 为 单独 的 、 不 同 的 维度 时 ， 我 们 并 不 知道 “Good 
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morning, Hobs” 与 “Guten Morgen, Hannes” 其 实 具 有 相同 的 含义 。 我 们 需要 为 消息 创建 一 些 降 
维 的 向 量 空间 模型 ， 这 样 就 可 以 用 一 组 连续 〈 浮 点 ) 值 来 标记 它们 。 我 们 可 以 根据 主题 和 情感 等 
寺 点 对 消息 和 文字 进行 评级 。 这 样 ， 我 们 就 可 以 问 下 面 这 样 的 问题 : 
E 这 条 消息 有 多 大 可 能 成 为 一 个 被 提问 的 问题 ? 
这 条 消息 有 多 大 可 能 是 和 人 有 关 的 ? 
这 条 消息 有 多 大 可 能 是 关于 我 自己 的 ? 
这 条 消息 听 起 来 愤怒 或 高 兴 的 程度 有 多 高 ? 
这 个 问题 是 否 需 要 我 做 出 回复 ? 

想 想 我 们 能 赋予 语句 的 所 有 评级 , 我 们 可 以 把 这 些 评 级 按 顺序 排列 , 然后 为 每 条 语句 计算 评 
RK, 从 而 为 每 条 语句 生成 一 个 向 量 。 我 们 能 为 一 组 语句 给 出 的 评级 列表 或 维度 应 该 比 可 能 的 语句 
数量 小 得 多 。 对 于 上 述 所 有 的 问题 ， 意 义 相 同 的 语句 应 该 有 相似 的 分 值 。 

这 些 评级 向 量变 成 了 机 器 可 以 编程 进行 回复 的 对 象 。 我 们 可 以 通过 对 语句 聚 类 ( 聚集 
步 简 化 和 泛 化 向 量 ， 使 它们 在 某 些 维度 上 接近 ， 而 在 其 他 维度 上 不 接近 。 

但 是 , 计算 机 应 该 如 何 为 这 些 向 量 的 每 一 个 维度 赋值 呢 ? 我们 把 向 量 维 度 的 问题 简化 成 “ 它 
包含 good 这 个 词 吗 ?”“ 它 包含 morning 这 个 词 吗 ?” 等 问题 。 我 们 可 以 看 到 ， 这 里 可 以 提出 100 
万 个 左右 的 问题 , 这 就 是 计算 机 可 以 分 配给 一 个 短语 的 数值 范围 。 这 是 第 一 个 实际 的 向 量 空间 模 
型 ， 称 为 位 向 量 语言 模型 ， 或 者 说 是 独 热 编码 向 量 的 求 和 结果 。 我 们 可 以 看 到 ,为 什么 计算 机 现 
在 变 得 越 来 越 强大 , 足以 理解 自然 语言 。 人 类 简单 生成 的 数 百 万 个 百 万 维 向 量 , 在 20 世纪 80 年 
代 的 超级 计算 机 上 根本 无 法 计算 ， 但 在 21 世纪 的 普通 笔记 本 电脑 上 计算 则 没有 任何 问题 。 不 仅 
仅 是 原始 硬件 的 功率 和 容量 导致 NLP 越 来 越 实 用 ， 增 长 的 常数 内 存 、 线 性 代数 算法 是 机 器 破解 
自然 语言 编码 的 最 后 一 块 “拼图 ”。 

还 有 一 个 更 简单 但 更 大 的 表示 法 可 以 用 于 聊天 机 器 人 。 如 果 我 们 的 向 量 维度 完全 描述 了 字符 
的 精确 序列 会 怎样 ? 它 会 包含 下 面 这 些 问 题 的 答案 , 如 “第 一 个 字母 是 A 吗 ? 是 B 吗 ? ……: ”“ 第 
二 个 字母 是 A 吗 ? ”等 。 这 个 向 量 的 优点 是 ， 它 保留 了 原始 文本 中 包含 的 所 有 信息 ， 包 括 字 符 
和 词 的 顺序 。 想 象 一 下 ， 一 架 钢琴 一 次 只 能 演奏 一 个 音符 ， 它 可 以 演奏 52 个 或 更 多 的 音符 。 自 
然 语 言 机 械 钢 琴 的 音符 是 26 个 大 写字 母 、26 个 小 写字 母 再 加 上 钢琴 必须 知道 如 何 演 奏 的 任何 标 
点 符号 。 钢琴 纸 卷 不 会 比 真正 的 钢琴 宽 很 多 , 而 且 一 些 长 钢琴 曲 中 的 音符 数量 不 会 超过 一 个 小 文 
档 中 的 字符 数量 。 但是, 这 种 独 热 字 符 序列 编码 表示 法 主要 用 于 精确 记录 和 重 放 原 始 片段 ,而 非 
编写 新 内 容 或 提取 一 件 作 品 的 精髓 。 在 这 种 表示 法 下 , 我 们 不 太 容 易 将 某 一 首 歌 的 钢琴 纸 卷 与 男 
一 首 歌 的 相 比 。 这 个 表示 比 文档 的 原始 ASCII 编码 表示 还 要 长 。 为 了 保留 每 个 字符 序列 的 信息 ， 
文档 表示 的 可 能 数量 会 爆炸 。 这 里 ， 我 们 虽然 保留 了 字符 和 词 的 顺序 ， 但 是 扩展 了 NLP 问题 的 
维度 。 

在 上 述 基于 字符 的 向 量 空间 中 , 这 些 文档 表示 不 能 很 好 地 通过 聚 类 聚 在 一 起 。 俄 罗斯 数学 家 
弗 拉 基 米 尔 . 莱 文 斯 坦 (Vladimir Levenshtein ) 提出 了 一 个 非常 聪明 的 方法 ， 可 以 快速 地 找到 这 
个 空间 下 序列 〈 字 符 串 ) 之 间 的 相似 性 。 只 使 用 这 种 简单 的 、 机 械 的 语言 视图 ， 莱 文 斯 坦 算法 就 
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能 使 创建 一 些 超级 有 趣 和 有 用 的 聊天 机 器 人 成 为 可 能 。 但 是 ， 当 我 们 想到 如 何 将 这 些 高 维 空间 压 
缩 /嵌入 到 具有 模糊 含义 的 较 低 维 空间 得 到 所 谓 的 主题 向 量 时 ， 真 正 神奇 的 事情 发 生 了 。 在 第 4 
章 中 , 当 我 们 讨论 潜在 语义 索引 和 潜在 狄 利克 雷 分 配 时 ,我 们 将 看 到 隐藏 在 魔术 师 幕 布 后 的 东西 ， 
这 两 种 技术 可 以 创建 更 密集 、 更 有 意义 的 语句 和 文档 的 向 量 表示 。 












































16 词 序 和 语法 


词 的 顺序 很 重要 。 那些 在 词 序列 ( 如 句子 ) 中 控制 词 序 的 规则 被 称 为 语言 的 语法 (grammar, 
也 称 文法 )。 这 是 之 前 的 词 袋 或 词 向 量 例子 中 所 丢弃 的 信息 。 幸 运 的 是 ， 在 大 多 数 简短 的 短语 甚至 
许多 完整 的 句子 中 , 上 述 词 向 量 近 似 方法 都 可 以 奏效 。 如 果 只 是 想 对 一 个 短 句 的 一 般 意 义 和 情 感 进 
行 编码 的 话 ， 那 么 词 序 并 不 十 分 重要 。 看 一 下 “Good morning Rosa” 这 个 例子 中 的 所 有 词 序 结 


>>> from itertools import permutations 
































>>> [" ".join(combo) for combo in\ 

eters permutations ("Good morning Rosa!".split(), 3)] 
['Good morning Rosa!', 

"Good Rosa! morning', 

‘morning Good Rosa!', 

"morning Rosa! Good', 

"Rosa! Good morning’, 

"Rosa! morning Good'] 


现在 ， 如 果 试 图 孤立 地 解释 这 些 字 符 串 中 的 每 一 个 〈 不 看 其 他 字符 串 )， 那 么 可 能 会 得 出 结 
论 ， 即 这 些 字符 串 可 能 都 有 相似 的 意图 或 含义。 我 们 甚至 可 能 注意 到 Good 这 个 词 的 大 写 形式 ， 
并 把 它 放 在 脑海 中 短语 的 最 前 面 。 但 是 我 们 也 可 能 认为 Good Rosa 是 某 种 专 有 名 词 ， 如 和 餐馆 或 花 
店 的 名 字 。 尽管 如 此 , 一 个 聪明 的 聊天 机 器 人 或 者 布 莱 切 利 公 园 20 世纪 40 年 代 的 聪明 女士 可 能 
会 用 同样 无 伤 大 雅 的 问候 语 来 回应 这 6 种 情况 中 的 任何 一 种 :“Good morning my dear General.” ” 

我 们 (在 脑海 中 ) 再 用 一 个 更 长 、 更 复杂 的 短语 来 尝试 一 下 ， 这 是 一 条 逻辑 语句 ， 其 中 词 的 
顺序 非常 重要 : 

>>> s = """Find textbooks with titles containing 'NLP', 

or ‘natural’ and 'language', or 


Stet "computational' and 'linguistics'.""" 
>>> len(set(s.split())) 




































































12 

>>> import numpy as np 

>>> np.arange(1l, 12 + 1).prod() # factorial(12) = arange(1l, 13) .prod() 

479001600 

词 排列 的 数量 从 简单 的 问候 语 factorial (3) == 6 激增 到 更 长 的 语句 factorial (12) == 


479001600! 很 明显 ， 词 序 所 包含 的 逻辑 对 任何 希望 正确 回复 的 机 咒 而 言 都 很 重要 。 尽 管 普 ; 





D 这 个 和 英国 二 战 密码 破译 的 公园 有 关 。 一 一 译 者 注 
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的 问候 语 通常 不 会 因为 词 袋 处 理 而 造成 混淆 , 但 如 果 把 更 复杂 的 语句 放 人 词 袋 中 , 就 会 丢失 大 部 
分 意思 。 就 像 前 面 示例 中 的 自然 语言 查询 一 样 ， 词 袋 并 不 是 处 理 数据 库 查 询 的 最 佳 方式 。 

无 论语 句 是 用 形式 化 的 编程 语言 (如 SQL ) 编写 的 ， 还 是 用 非 形 式 化 的 自然 语言 ( 如 英语 ) 
编写 的 ， 当 语句 要 表达 事物 之 间 的 逻辑 关系 时 , 词 序 和 语法 都 非常 重要 。 这 就 是 计算 机 语言 依赖 
严格 的 语法 和 句法 规则 分 析 需 的 原因 。 幸 运 的 是 ， 自 然 语言 句法 树 分 析 器 取得 了 一 些 最 新 进展 ， 
使 得 从 自然 语言 中 提取 出 语法 和 逻辑 关系 变 得 可 能 ,并 且 可 以 达到 显著 的 精确 率 ( 超过 90% ) 。 
在 后 面 的 章节 中 ， 我 们 将 介绍 如 何 使 用 SyntaxNet ( Parsey McParseface ) 和 SpaCy 这 样 的 包 来 识 
别 这 些 关系 。 

就 像 上 面 有 关 布 莱 切 利 公园 问候 语 的 例子 一 样 ,， 即 使 一 条 语句 的 逻辑 解释 并 不 依赖 词 序 , 有 
时 关注 词 序 也 可 以 得 到 一 些 十 分 微妙 的 相关 意义 的 暗示 , 这 些 意义 可 以 辅助 更 深层 次 的 回复 。 有 
关 这 些 更 深层 的 自然 语言 处 理 环节 将 在 下 一 节 讨论 。 此 外 , 第 2 章 会 介绍 一 种 技巧 ， 它 能 够 将 一 
些 由 词 序 表达 的 信息 融合 到 词 向 量 表示 当中 。 同 时, 第 2 章 还 会 介绍 如 何 改进 前 面 例子 中 使 用 的 
分 词 器 ( str. split () )， 以 便 更 准确 地 将 词 向 量 中 的 词 放 到 更 合适 的 槽 内 。 这 样 , “good” A 
“Good” 这 样 的 词 会 放 到 同一 个 栈 里 ， 而 “rosa” 和 “Rosa”( 不 是 “Rosal”) 这 样 的 词 条 将 会 分 
配 到 不 同 的 栈 。 
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构建 对 话 引擎 或 聊天 机 器 人 所 需 的 NLP 流水 线 与 Ingersol、Morton 和 Farris 所 写 的 《驾驭 文 
AX) (Taming Text) 一 书 中 描述 的 问答 系统 类 似 。 然 而 ， 在 5 个 子 系统 中 列 出 的 一 些 算法 可 能 对 
读者 来 说 是 全 新 的 。 我 们 帮助 大 家 在 Python 中 实现 这 些 算 法 ， 以 完成 大 多 数 应 用 程序 ( 包括 聊 
天 机 器 人 ) 所 必需 的 各 种 NLP 任务 。 

HB Las A is BE 4 个 处 理 阶段 和 一 个 数据 库 来 维护 过 去 语句 和 回复 的 记录 。 这 4 个 处 理 阶段 
中 的 每 个 阶段 都 可 以 包含 一 个 或 多 个 并 行 或 串 行 工作 的 处 理 算法 (如 图 1-3 所 示 )。 

(1) 解析 : 从 自然 语言 文本 中 提取 特征 、 结 构 化 数值 数据 。 

(2) 分 析 : 通过 对 文本 的 情感 、 语 法 合法 度 及 语义 打分 ， 生 成 和 组 合 特征 。 

(3) 生成 : 使 用 模板 、 搜 索 或 语言 模型 生成 可 能 的 回复 。 

(4) 执行 : 根据 对 话 历史 和 目标 ， 规 划 相 应 语句 ， 并 选择 下 一 条 回复 。 

上 述 4 个 阶段 中 的 每 个 阶段 都 可 以 使 用 框图 中 相应 框 中 列 出 的 一 个 或 多 个 算法 来 实现 ,我 们 
将 介绍 如 何 使 用 Python 为 这 些 处 理 步 又 中 的 每 一 个 步 又 实现 近乎 最 高 效 的 性 能 。 男 外 ， 我 们 还 
会 介绍 这 5 个 子 系统 的 几 种 其 他 实现 方法 。 

大 多 数 聊天 机 器 人 将 包含 这 5 个 子 系统 (4 个 处 理 阶段 加 上 数据 库 ) 的 所 有 元 素 。 但 是 很 多 
应 用 程序 针对 其 中 多 个 步骤 只 需要 简单 的 算法 。 有 些 聊天 机 器 人 更 擅长 回答 事实 型 问题 ， 而 其 他 












































D 有 关 多 个 语法 分 析 器 精度 的 一 个 对 比 (Spacy 达到 93%，SyntaxNet 达到 94%， 斯 坦 福 大 学 的 CoreNLP 
达到 90%， 还 有 其 他 一 些 分 析 器 ) 可 以 参考 Spacy 官方 文档 。 
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一 些 则 更 擅长 做 出 兄长 、 复 杂 、 令 人 信服 的 像 人 一 样 的 回复 。 上 述 提 到 的 每 一 种 能 力 都 需要 不 同 
的 方法 ,我 们 会 介绍 同时 实现 这 两 种 能 力 的 技术 。 





文本 











4. 执行 
一 般 化 & 分 类 
型 更 新 


目标 更 新 
对 话 计划 更 新 
回复 选择 


结构 化 数据 
(特征 向 量 ) 





打分 的 语 


可 能 的 回复 





图 1-3 聊天 机 器 人 的 循环 流水 线 





此 外 ， 深 度 学 习 和 数据 驱动 编程 (机 器 学 习 或 概率 语言 建 模 ) 使 NLP 和 聊天 机 器 人 的 应 用 
迅速 多 样 化 。 这 种 数据 驱动 的 方法 通过 为 NLP 流水 线 提供 越 来 越 多 的 期 望 得 以 应 用 的 领域 中 的 
数据 使 其 更 加 复杂 。 当 一 种 新 的 机 器 学 习 方法 被 发 现 能 够 更 好 地 利用 这 些 数据 进行 更 有 效 的 模型 
泛 化 或 正则 化 时 ， 那 么 就 有 可 能 实现 能 力 的 巨大 飞跃 。 

图 1-3 所 示 的 聊天 机 器 人 NLP 流水 线 包 含 了 本 章 一 开始 描述 的 大 多 数 NLP 应 用 程序 的 所 有 
构建 模块 。 与 《驾驭 文本 》 一 书 一 样 ， 我们 将 流水 线 划 分 为 4 个 主要 的 子 系统 或 阶段 。 此 外 ， 我 
们 还 显 式 地 调用 了 一 个 数据 库 来 于 记录 每 个 阶段 所 需 的 数据 , 并 随 着 时 间 的 推移 保存 这 些 阶 段 的 
配置 和 训练 集 。 这 可 以 在 聊天 机 器 人 与 外 界 进行 交互 时 对 每 个 阶段 进行 批量 或 在 线 再 训练 。 我 们 
还 在 生成 的 文本 回复 上 给 出 了 一 个 反馈 循环 , 以 便 使 用 与 处 理 用 户 语句 相 同 的 算法 来 处 理 我 们 的 
回复 。 然 后 ， 根 据 聊天 机 器 人 的 对 话 规划 或 目标 ， 将 回复 的 得 分 或 特征 融合 到 一 个 目标 函数 中 ， 
以 评估 和 选择 可 能 的 最 佳 回 复 。 本 书 主要 关注 在 聊天 机 器 人 上 配置 这 个 NLP 流水 线 ， 但 是 大 家 
也 可 以 看 到 类 似 于 文本 检索 或 搜索 的 NLP 问题 ， 而 搜索 可 能 是 最 常见 的 NLP 应 用 。 很 明显 ， 这 
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里 的 聊天 机 器 人 流水 线 也 适用 于 《驾驭 文本 》 这 本 书 所 关注 的 重点 应 用 一 一 问答 系统 。 

上 述 流水 线 在 金融 预测 或 商业 分 析 方 面 的 应 用 可 能 不 那么 明显 ,但 是 想象 一 下 流水 线 分 
析 部 分 生成 的 特征 。 这 些 从 分 析 或 特征 生成 中 得 到 的 特征 可 以 针对 具体 的 金融 或 商业 预测 任 
务 进行 优化 。 通 过 这 种 方式 ， 就 可 以 将 自然 语言 数据 输入 到 机 融 学 习 流 水 线 中 进行 预测 。 尽 
管 专注 于 构建 聊天 机 器 人 , 但 本 书 也 为 大 家 提供 了 从 搜索 到 金融 预测 等 广泛 的 NLP 应 用 程序 
所 需 的 工具 。 

在 图 1-3 中 有 一 个 处 理 要 素 通常 不 会 用 于 搜索 、 预 测 或 问答 系统 ， 这 就 是 自然 语言 生成 。 而 
对 聊天 机 器 人 来 说 ， 这 是 它 的 核心 特征 。 尽 管 如 此 ， 文 本 生成 步 又 经 常 被 合并 到 搜索 引擎 NLP 
应 用 程序 中 , 这 可 以 为 这 样 的 引擎 带 来 巨大 的 竞争 优势 。 对 许多 流行 的 搜索 引 警 《DuckDuckGo、 
Bing 和 Google ) 来 说 ， 整 合 或 概括 搜索 结果 的 能 力 是 一 项 制胜 特征 。 可 以 想象 ， 如 果 一 个 金融 
预测 引擎 能 够 根据 它 从 社交 媒体 网 络 和 新 闻 源 中 的 自然 语言 流 中 检测 到 的 金融 业务 活动 生成 语 
句 、 推 文 或 整 篇 文章 ， 那 该 多 么 有 价值 ! 

下 一 节 将 展示 如 何 组 合 这 样 一 个 系统 的 各 层 ， 以 便 在 NLP 流水 线 的 每 个 阶段 创建 更 复杂 的 
功能 。 
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自然 语言 处 理 流水 线 的 各 个 阶段 可 以 看 作 是 层 , 就 像 前 馈 神 经 网 络 中 的 层 一 样 。 深 度 学 习 就 
是 通过 在 传统 的 两 层 机 器 学 习 模 型 架构 〈 特征 提取 + 建 模 ) 中 添加 额外 的 处 理 层 来 创建 更 复杂 的 
模型 和 行为 。 在 第 5 章 中 ， 我们 将 解释 神经 网 络 如 何 通 过 将 模型 错误 从 输出 层 反 向 传播 回 输入 层 ， 
从 而 帮助 完成 跨 层 传播 学习 的 过 程 。 但 是, 这 里 我 们 讨论 的 是 那些 顶层 以 及 通过 独立 训练 ( 各 层 
的 训练 独立 ) 所 能 达到 的 结 

1-4 中 的 前 四 层 对 应 于 上 一 节 聊 天 机 融 人 流水 线 中 的 前 两 个 阶段 〈 特 征 提取 和 特征 分 析 )。 
例如 , 词性 标注 (POS 标注 ) 是 在 聊天 机 融 人 流水 线 的 分 析 阶 段 生 成 特征 的 一 种 方法 。POS 标签 
由 默认 的 Spacy 流水 线 自动 生成 ， 该 流水 线 包括 图 1-4 中 所 有 的 前 四 层 。POS 标注 通常 使 用 有 
限 状 态 转 换 机 来 完成 ， 就 像 nltk .tag 包 中 的 方法 一 样 。 

底部 的 两 层 ( 实体 关系 和 知识 库 ) 用 于 构成 包含 特定 领域 信息 ( 知识 ) 的 数据 库 。 使 用 所 有 
这 6 层 从 特定 语句 或 文档 中 提取 的 信息 可 以 与 该 数据 库 结 合 使 用 进行 推理 。 这 里 的 推理 结果 是 从 
环境 中 检测 到 的 一 组 条 件 中 进行 的 逻辑 推理 , 就 像 聊 天 机 器 人 语句 中 包含 的 逻辑 一 样 。 图 中 较 深 
层 的 这 种 推理 机 被 认为 属于 人 工 智能 的 领域 , 机 器 可 以 对 它们 的 世界 进行 推理 , 并 使 用 这 些 推理 
结论 做 出 逻辑 决策 。 然 而 ， 聊 天 机 器 人 只 使 用 上 面 几 层 的 算法 ,可 以 在 没有 上 述 知识 库 的 情况 下 
做 出 合理 的 决策 。 这 些 决策 组 合 起 来 可 能 会 产生 令 人 惊讶 的 类 人 行为 。 

在 接 下 来 的 几 章 ， 我 们 将 深入 到 NLP 的 最 上 面 几 层 。 最 上 面 的 3 层 是 进行 有 意义 的 情感 分 析 
和 语义 搜索 , 以 及 构建 仿 人 聊天 机 器 人 所 需要 的 全 部 内 容 。 事 实 上 , 只 使 用 一 层 , 直接 使 用 文本 ( 字 
符 序列 ) 作为 语言 模型 的 特性 ,就 可 以 构建 一 个 有 用 且 有 趣 的 聊天 机 器 人 。 如 果 给 出 足够 的 示例 语 
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名 和 回复 ， 只 进行 字符 串 匹 配 和 搜索 的 聊天 机 器 人 就 能 够 参与 到 合理 的 令 人 信服 的 对 话 中 。 














算法 数据 结构 示例 应 用 
ee oe 
“Good morning Rosa.” IN s oT 
正则 表达 式 J WMA 
: hans part “Rosa” ] na, xia, aem 
CEER? OOE i A i 青 感 分 析 、word2vec 数 学 、 
bie (morning, singular noun’), | ， 语义 搜索 、 对 话 聊天 机 器 人 ) 
‘a ke i 拼写 及 语法 校正 、 文 体 学 、 
i EEE oh, N 对 话 (聊天 机 器 人 ) 
See, { (“Rosa”, SPN, nmod): None, 
“unnan (“Good”, ADJ, dep): None, 问答 、 文体 学 、 复杂 对 话 、 
) , 语法 校正 、 写 作 指导 
信息 提取 器 
St) ei 知识 提取 及 推理 、 医 疗 诊断 、 
LA [noring| sed 问答 、 游戏 
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图 1-4 NLP 流水 线 中 的 示例 层 


定理 证 明 、 推 理 、 数 据 库 自 然 
语言 查询 、 通 用 人 工 智 能 (AGI) 















例如 ， 开 源 项 目 ChatterBot 大 大 简化 了 上 述 流水 线 ， 它 只 计算 输入 语句 和 记录 在 数据 库 
中 的 语句 之 间 的 字符 串 “ 编 辑 距 离 ”( 莱 文 斯 坦 距 离 )。 如 果 其 语句 -回复 对 数据 库 中 包含 匹配 的 
语句 ， 则 可 以 通过 复 用 对 应 的 回复 (来 自 预先 “学 习 ” 过 的 人 工 或 机 器 对 话 框 ) 作为 最 新 语句 的 
回复 。 对 于 该 流水 线 ， 所 需要 的 只 是 聊天 机 器 人 流水 线 的 步骤 3( 生成 )。 在 这 个 阶段 ， 只 需要 
一 个 暴力 搜索 算法 就 可 以 找到 最 佳 回 复 。 通 过 这 种 简单 的 技术 〈 不 需要 分 词 或 特征 生成 )， 
ChatterBot 作为 Salvius 的 对 话 引擎 可 以 维护 令 人 信服 的 对 话 过程 ， 而 Salvius EFA IGE + 考 克 
(Gunther Cox ) 用 回收 部 件 构建 的 机 械 机 器 人 。 

Will 是 由 Steven Skoczen 开发 的 一 个 开源 的 Python 聊天 机 器 人 框架 , 它 采 用 了 完全 不 同 的 
PE”, Will 只 能 通过 训练 对 正则 表达 式 语句 作出 回复 。 这 是 “ 重 人 力 轻 数据 ”的 一 种 NLP 方 
法 。 这 种 基于 语法 的 方法 对 于 问答 系统 和 任务 执行 助理 机 器 人 (如 Lex、Siri F Google Now ) Jt 
其 有 效 。 这 些 系统 通过 使 用 “模糊 正则 表达 式 ” 和 其 他 技术 来 寻找 近似 的 语法 匹配 ， 从 而 克服 































































































O 参考 Will 的 GitHub PYG, will 是 Steven Skoczen 和 HipChat 社区 为 HipChat 开发 的 一 款 聊天 机 器 人 。 
2018 年 Will 被 集成 到 Slack 中 

@ Python 的 regex 包 与 re 保持 后 向 兼容 ， 它 加 入 了 模糊 性 这 一 特征 。 将 来 regex 会 取代 re。 类 似 地 ， 
TRE agrep 或 者 近似 grep 是 UNIX 命令 行 应 用 程序 grep 的 一 个 蔡 代 命令 。 





o 





























24 第 1 章 NLP 概述 








了 精确 正则 表达 式 的 脆弱 性 。 模 糊 正则 表达 式 不 做 精确 匹配 ， 而 是 无 视 插 入 、 删 除 和 替换 的 最 大 
错误 数目 ， 在 可 能 的 语法 规则 ( 正则 表达 式 ) 列表 中 寻找 最 接近 的 语法 匹配 结果 。 然 而 ， 要 对 基 
于 语法 的 聊天 机 器 人 行为 的 广度 和 复杂 性 进行 扩展 , 需要 大 量 的 人 力 开 发 工作 。 即 使 是 由 地 球 上 
一 些 最 大 的 公司 ( 谷歌、 亚马逊 、 ER, 微软 ) 所 构建 和 维护 的 最 先进 的 基于 语法 的 聊天 机 器 人 ， 
聊天 机 器 人 智商 的 深度 和 广度 方面 仍 处 于 中 游 水 平 。 

RE NLP 能 够 完成 许多 强大 的 任务 ， 而 且 ， 几 乎 不 需要 ( 有 的 话 也 会 极 少 ) 人 工 监督 (对 
文本 进行 标注 或 整理 )。 通 常 ， 机 器 可 以 持续 不 断 地 从 它 所 处 的 环境 ( 它 可 以 从 Twitter 或 其 他 来 
源 获 取 的 词 流 ) 中 学 习 。 我 们 将 在 第 6 章 介绍 如 何 做 到 这 一 点 。 
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就 像 人 类 的 智能 一 样 ， 如 果 不 考虑 多 个 智能 维度 ， 单 赁 一 个 智商 分 数 是 无 法 轻易 衡量 NLP 
流水 线 的 能 力 的 。 衡 量 机 器 人 系统 能 力 的 一 种 常见 方法 是 , 根据 系统 行为 的 复杂 性 和 所 需 的 人 类 
监督 程度 这 两 个 维度 来 衡量 。 但 是 对 自然 语言 处 理 流水 线 而 言 , 其 目标 是 建立 一 个 完全 自动 化 的 
自然 语言 处 理 系统 , 会 消除 所 有 的 人 工 监 督 (一 旦 模型 被 训练 和 部 署 )。 因 此 , 一 对 更 好 的 IQ 维 
度 应 该 能 捕捉 到 自然 语言 流水 线 复 杂 性 的 广度 和 深度 。 

像 Alexa 或 Allo 这 样 的 消费 产品 聊天 机 器 人 或 者 虚拟 助手 ,通常 设计 为 具有 极其 广泛 的 知识 

和 功能 。 然 而 ,用 于 响应 请 求 的 逻辑 往往 比较 浅显 ,通常 由 一 组 触发 短语 组 成 ， 这 些 短语 都 使 用 
单个 if-then 决策 分 支 来 生成 相同 的 回复 。Alexa ( 以 及 底层 的 Lex 引擎 ) 的 行为 类 似 于 一 个 单 
Je. RAPER (if, elif, elif: ) 语句 树 ”。 谷 歌 的 Dialogflow 是 独立 于 谷歌 的 Allo 和 从 
歌 智能 助理 (Google Assistant) 开发 出 的 产品 ， 具 有 与 亚马逊 的 Lex, Contact Flow 和 Lambda 
类 似 的 功能 ， 但 是 没有 用 于 设计 对 话 树 的 拖 放 用 户 界面 。 
男 一 方面 ， 谷 歌 翻译 (Google Translate ) 流水 线 (或 任何 类 似 的 机 器 翻译 系统 ) 依赖 一 个 由 
特征 提取 器 、 决 策 树 和 知识 图 谱 组 成 的 深层 树 结构 ， 其 中 知识 图 谱 连 接着 世界 知识 。 有 了 时， 这 些 
特征 提取 器 、 决 策 树 和 知识 图 谱 被 显 式 地 编程 到 系统 中 ， 如 图 1-4 所 示 。 男 一 种 快速 超越 这 种 手 
工 编码 流水 线 的 方法 是 基于 深度 学 习 的 数据 驱动 方法 。 深度 神经 网 络 的 特征 提取 絮 是 自动 学 习 而 
不 是 硬 编码 的 ， 但 它们 通常 需要 更 多 的 训练 数据 才能 达到 与 精心 设计 的 算法 相同 的 性 能 。 

下 面 我 们 逐步 为 聊天 机 器 人 建立 NLP 流水 线 以 便 能 够 在 某 个 知识 领域 和 用 户 交 谈 ， 这 期 间 
我 们 将 使 用 上 面 提 到 的 这 两 种 方法 ( 神经 网 络 和 手工 编码 算法 )。 该 实战 过 程 将 为 大 家 提供 所 需 
的 技能 ， 以 完成 大 家 在 各 自 的 工业 或 商业 领域 的 自然 语言 处 理 任务 。 在 此 过 程 中 , 大 家 可 能 会 了 
解 如 何 扩展 NLP 流水 线 以 拓宽 任务 范围 。 图 1-5 将 聊天 机 器 人 置 于 现存 的 自然 语言 处 理 系统 中 。 
想象 一 下 与 我 们 交互 的 聊天 机 器 人 , 大 家 认为 它们 在 图 中 应 该 处 于 什么 位 置 ? 大 家 有 没有 试 过 用 



















































































































































































D 简单 的 神经 网 络 常 常用 于 从 字符 和 词 序 列 中 无 监督 地 提取 特征 。 
© 将 Lambda 加 入 AWS Contact Flow 对 话 树 ， 就 能 获得 更 复杂 的 逻辑 和 行为 。 参 考 “Creating Call Center Bot 
with AWS Connect”, 
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难题 或 类 似 IQ 测试 的 方法 来 测试 它们 的 智商 ? 在 后 面 的 章节 中 , 大 家 将 有 机 会 确切 地 做 到 这 一 
点 ， 以 帮助 大 家 确定 自己 开发 的 聊天 机 融 人 与 图 中 其 他 机 器 人 的 异同 。 
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图 1-5 一些 NLP 系统 的 二 维 智商 展示 


随 着 阅读 的 不 断 深 入 , 我 们 将 构建 聊天 机 器 人 的 各 个 组 成 元 素 。 聊 天 机 器 人 需要 所 有 的 NLP 
工具 才能 很 好 地 工作 : 

E 特征 提取 (通常 产生 一 个 向 量 空 间 模型 ); 

m 通过 信息 提取 回答 事实 型 问题 ; 

E 通过 语义 搜索 从 自然 语言 文本 或 对 话 的 历史 记录 中 学 习 ; 

E 通过 自然 语言 生成 来 构成 有 意义 的 新 语句 。 

机 器 学 习 给 了 我 们 一 种 方式 , 让 机 器 表现 得 就 像 我 们 花 了 一 辈子 时 间 用 数 以 百 计 的 复杂 正则 
表达 式 或 算法 在 它 身上 一 样 。 只 需要 提供 用 户 语句 以 及 期 望 聊天 机 器 人 模拟 的 回复 的 示例 , 我 们 
就 可 以 教会 机 器 对 类 似 于 正则 表达 式 中 定义 的 模式 进行 回复 。 而 由 机 器 学 习 产 生 的 语言 “模型 ”， 
即 有 限 状 态 机 则 好 得 多 ， 它 们 对 拼写 和 录入 错误 不 那么 敏感 。 

此 外 ， 基 于 机 器 学 习 的 NLP 流水 线 更 容易 用 编程 实现 。 我 们 不 需要 预测 语言 符号 的 每 一 种 
可 能 用 法 , 而 只 需要 给 训练 流水 线 提供 匹配 和 不 匹配 的 短语 样本 。 只 要 在 训练 过 程 中 给 它们 贴 上 
标签 ， 聊天 机 器 人 就 知道 哪些 是 正 样本 ,哪些 是 负 样 本 ,， 它 就 会 学 会 对 正 负 样本 进行 区 分 。 其 至 
还 有 一 些 机 器 学 习 方 法 ， 几 乎 不 需要 “标记 ”数据 。 

我 们 已 经 给 了 读者 一 些 学 习 NLP 的 令 人 兴奋 的 理由 。 大 家 想 瓜 救 世界 ， 是 吗 ? 我 们 试图 通 
过 一 些 实际 的 NLP 应 用 程序 来 引起 大 家 的 兴趣 ， 这 些 应 用 正在 改变 我 们 的 沟通 、 学 习 、 交 易 其 
至 思考 的 方式 。 不 久之 后 ， 我 们 就 可 以 构建 一 个 类 似 于 人 类 会 话 行为 的 系统 。 大 家 应 该 能 够 在 接 
下 来 的 章节 中 看 到 , 如 何 用 感 兴趣 的 领域 知识 来 训练 聊天 机 器 人 或 NLP 流水线, 这 些 领域 从 金融 、 













































































@ Byron Reese 建议 的 一 个 好 问题 是 “What’s larger? The sun or a nickel?”。 本 书 GitHub 上 有 更 多 问题 供 大 
家 起 步 时 参考 ( src/nlpia/data/iq_ test.csv )。 
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体育 到 心理 学 和 文学 。 如 果 能 找到 关于 某 一 领域 的 语料库 ， 那 么 就 能 训练 机 器 去 理解 这 个 领域 。 

本 书 接 下 来 的 其 余 各 章 将 介绍 机 器 学 习 在 NLP 中 的 应 用 ， 通 过 机 器 学 习 可 以 避免 我 们 预测 
自然 语言 所 有 的 表述 方式 。 每 一 章 都 对 本 昔 介 绍 的 聊天 机 器 人 的 基本 NLP 流水 线 进 行 逐 步 改进 。 
在 学 习 NLP 工具 的 过 程 中 ,我 们 将 构建 NLP 流水 线 ， 它 不 仅 可 以 用 于 对 话 ， 还 可 以 帮助 我 们 实 
现 商 业 和 生活 中 的 目标 。 
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好 的 NLP 可 以 帮助 拯救 世界 。 

词 的 意义 和 意图 可 以 被 机 器 破译 。 

一 个 智能 的 NLP 流水 线 将 能 够 处 理 歧义 。 

我 们 可 以 教 机 器 常识 ， 而 不 是 花 一 辈子 的 时 间 来 训练 它们 。 
聊天 机 器 人 可 以 看 成 是 一 种 语义 搜索 引擎 。 
正则 表达 式 不 仅仅 用 于 搜索 。 
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本 章 主 要 内 容 

图 将 文本 切 分 成 词 或 n-gram ( 词 条 ) 

图 处 理 非 标准 的 标点 符号 和 表情 符号 ( 如 社交 媒体 帖子 上 的 表情 符号 ) 
图 利用 词 干 还 原 和 词 形 归 并 方法 压缩 词汇 表 

图 构建 语句 的 向 量 表 示 

图 基于 手工 标注 的 词 条 得 分 构建 情感 分 析 工具 




















到 目前 为 止 , 大 家 是 否 已 经 准备 好 用 自然 语言 处 理 的 能 力 拯救 世界 了 呢 ?” 如 果 是 的 话 , 那么 
第 一 件 事 是 需要 一 个 强大 的 词汇 表 。 本 章 将 帮助 大 家 将 文档 或 任何 字符 串 拆 分 为 离散 的 有 意义 的 
词 条 。 这 里 说 的 词 条 仅 限 于 词 、 标 点 符号 和 数值 , 但 是 这 里 使 用 的 技术 可 以 很 容易 推广 到 字符 序 
列 包 含 的 任何 其 他 有 意义 的 单元 ， 如 ASCI 表情 符号 、Unicode 表情 符号 和 数学 符号 等 。 

从 文档 中 检索 词 条 需要 一 些 字符 串 处 理 方法 ， 这 些 方法 不 仅仅 限于 第 1 章 使 用 的 
stz.split() 。 处 理 时 需要 把 标点 符号 〈 如 语句 前 后 的 引号 ) 与 词 分 开 ， 还 需要 将 “we'l ”这 
样 的 缩写 词 还 原 成 原始 词 。 一 旦 从 文档 中 确定 好 要 加 入 词汇 表 中 的 词 条 之 后 , 需要 使 用 正则 表达 
式 工具 来 将 意义 相似 的 词 合 并 在 一 起 ， 这 个 过 程 称 为 词 干 还 原 ( stemming )。 然 后 ， 大 家 就 可 以 
将 文档 表示 成 词 袋 向 量 , 我 们 可 以 尝试 一 下 看 看 这 些 向 量 是 否 能 够 提高 第 1 章 末 尾 提 到 的 问候 语 
识别 需 的 能 

考虑 一 下 一 个 词 或 词 条 对 大 家 到 底 意味 着 什么 。 它 到 底 表 示 单 个 概念 ? 还 是 一 些 模糊 概念 的 
混杂 体 ? 大 家 是 否 能 够 确信 自己 总 能 认识 每 个 词 ?” 自然 语言 的 词 是 否 像 编程 语言 中 的 关键 字 一 
样 具有 精确 的 定义 和 一 套 语 法 使 用 规则 ? 大 家 能 和 否 编写 出 能 够 识别 词 的 软件 ?对 大 家 来 说 , “ice 
cream” 到 底 是 一 个 词 还 是 两 个 词 ? 它 在 大 家 的 头脑 当中 难道 不 是 有 两 个 词 ice 和 cream， 并 且 这 
两 个 词 与 复合 词 “ice cream” 完 全 独立 吗 ? 对 于 缩写 “don't” 又 该 如 何 处 理 ?” 这 个 字符 串 到 底 应 
该 拆 分 成 单个 意义 单元 还 是 两 个 意义 单元 ? 

另外 ， 词 可 以 再 分 成 更 细 粒 度 的 意义 单元 。 词 本 身 可 以 分 为 更 小 的 有 意义 部 分 。 诸 如 “re” 
“pre” 和 “ing” 之 类 的 音节 、 前 绥 和 后 缀 都 有 其 内 在 含义 。 词 的 各 组 成 部 分 还 可 以 进一步 分 成 更 
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细 粒 度 的 意义 单元 。 字 母 或 语义 图 符 ( grapheme ) 也 承载 着 情感 和 意义 。 

我 们 将 在 后 面 的 章节 中 讨论 基于 字符 的 向 量 空间 模型 。 但 现在 我 们 先 试 着 解决 词 是 什么 以 及 
如 何 将 文本 切 分 成 词 这 两 个 问题 。 

那么 对 于 隐藏 或 者 隐 含 的 词 如 何 处 理 呢 ? 如 果 给 出 单个 词 的 命令 “Don't !”， 大 家 能 想 出 它 
所 暗示 的 更 多 的 词 吗 ? 如 果 大 家 能 强迫 自己 先 像 一 台 机 器 一 样 思 考 然后 回 到 人 类 的 思考 方式 , BB 
么 可 能 会 意识 到 在 上 述 命令 中 还 隐 含 其 他 3 个 词 。 单 个 语句 "Don't !” 的 意思 是 “Don’t you do that!” 
或 者 “You, do not do that!1”。 我 们 期 望 机 器 能 够 知道 在 总 共 5 个 词 条 中 隐 含 的 3 个 意义 单元 。 不 
过 , 读者 现在 暂时 不 要 担心 隐 含 词 的 问题 ,， 本章 所 需要 的 只 是 一 个 分 词 器 ， 它 能 够 识别 出 已 拼写 
出 来 的 词语 。 第 4 章 及 以 后 大 家 将 会 担心 隐 含 词 、 内 涵 甚 至 含义 本 身 。 

本 章 将 给 出 将 输入 串 切 分 成 词 的 直接 算法 ， 同 时 我 们 还 可 以 提取 出 连续 2 个 、3 个 、4 个 其 
至 5 个 词 条 组 成 的 词 对 、 三 元 组 、 四 元 组 和 五 元 组 。 这 些 语言 单位 称 为 n-gram (n 元 )。 连 续 两 
个 词 称 为 2-gram (bigram )， 连 续 3 个 词 称 为 3-gram (trigram )， 连 续 4 个 词 称 为 4-gram， 其 余 
以 此 类 推 。 利 用 n-gram 可 以 让 机 器 不 仅 认 识 “ice” 和 “cream”， 也 认识 它们 构成 的 2-gram“ice 
cream”。 另 一 个 可 能 需要 放 在 一 起 的 2-gram 是 “Mr Smith”。 无论 是 最 终 的 词 条 还 是 文档 的 向 量 
表示 都 应 该 同时 为 “Mr Smith” 以 及 “Mr.” 和 “Smith” 保 留 位 置 。 

到 现在 为 止 ， 所 有 的 2-gram ( 和 其 他 较 短 的 n-gram ) 都 将 放 到 最 后 的 词汇 表 当 中 。 但 是 在 
第 3 章 大 家 将 会 学 到 如 何 利 用 词 的 文档 频率 ( 即 出 现 该 词 的 文档 数目 ) 来 估计 它们 的 重要 性 。 利 
用 这 种 方法 可 以 过 滤 掉 那些 罕见 的 词 对 或 三 元 组 。 大 家 会 发 现 我 们 给 出 的 方法 并 不 完美 。 在 任何 
机 器 学 习 流 水 线 中 ， 特 征 提取 很 少 能 够 完全 保留 输入 数据 的 所 有 信息 内 容 。 这 也 是 NLP 艺术 的 
一 部 分 ， 当 需要 调整 分 词 器 以 便 从 具体 应 用 的 文本 中 提取 更 多 或 不 一 样 的 信息 时 ， 要 进行 学 习 。 

在 自然 语言 处 理 中 ， 从 文本 中 产生 其 数值 向 量 实际 是 一 个 特别 “有 损 ” 的 特征 提取 过 程 。 尺 
管 如 此 ， 词 袋 (bag-ofwords，BOW ) 向 量 从 文本 中 保留 了 足够 的 信息 内 容 来 产生 有 用 和 有 趣 的 
机 器 学 习 模型 。 本 章 未 尾 情感 分 析 器 中 所 用 的 技术 也 就 是 Gmail 所 采用 的 技术 , 这 些 技术 让 我 们 
逃离 垃圾 邮件 组 成 的 “海洋 ”， 这 些 垃圾 邮件 几乎 让 电子 邮件 系统 毫 无 用 处 。 











































































































21 挑战 ( 词 干 还 原 预览 ) 


为 了 说 明 特 征 提 取 困难 的 原因 ， 我 们 先 考虑 一 个 词 干 还 原 的 例子 。 所 谓词 干 还 原 ， 指 的 是 将 某 
个 词 的 不 同 届 折 变化 形式 统统 “打包 ”到 同一 个 “ 桶 ”或 者 类 别 中 。 一 些 聪明 人 在 职业 生涯 中 仅 基 
于 词 的 拼写 开发 了 对 词 的 不 同 变形 “打包 ”的 算法 。 大 家 可 以 想象 一 下 词 干 还 原 的 大 致 难度 。 假 定 
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D 词素 (morpheme ) 是 词 的 组 成 部 分 , 其 本 身 包 含意 义 。Geoffrey Hinton 及 其 他 深度 学 习 学 者 的 工作 表明 ， 

即使 字母 这 种 书面 文本 的 最 小 单位 也 可 以 认为 它们 自己 是 有 内 在 含义 的 。 

D 如 果 你 想 了 解 更 多 关于 词 的 精确 真实 定义 的 信息 , 可 以 参考 Jerome Packard 的 The Morphologyof Chinese 
一 书 的 前 言 部 分 ， 在 那里 作者 详细 讨论 了 词 的 含义 。 在 20 世纪 从 英语 语法 翻译 到 汉语 之 前 ， 汉 语 中 根 
本 不 存在 “ 词 ”这 个 概念 。 
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要 将 “ending” 中 的 动词 后 级 “ing” 去 掉 ， 那 么 就 需要 有 个 称 为 “end” 的 词 干 来 表示 上 面 两 个 词 。 
同样 ， 我们 将 词 “running” 还 原 成 “run”， 于 是 这 两 个 词 可 以 同等 对 待 。 当 然 ， 上 述 处 理 过 程 实际 
上 有 些 环 手 , 因为 “running” 中 要 去 掉 的 不 仪 仪 是 “ing” 还 有 一 个 额外 的 字母 “n”。 还 有 , XF “sing” 
来 说 ,我 们 期 望 不 要 去 掉 后 面 的 “ing” 而 保留 整个 词 ， 否 则 ， 最 后 就 会 得 到 单个 字母 “s”。 

或 者 , 大 家 再 设想 一 下 如 何 区 分 名 词 复数 后 面 加 的 “s”( 如 words ) 和 词 本 身 ( 如 bus 和 lens ) 
后 面 就 有 的 “s”。 词 当中 一 个 个 独立 的 字母 或 者 词 的 一 部 分 是 和 否 为 整个 词 的 意义 提供 了 信息 ? 这 
些 字母 是 否 可 能 产生 误导 ? 这 两 个 问题 的 答案 都 是 yeso 

本 章 将 利用 传统 的 词 干 还 原 方法 来 处 理 上 述 词 拼写 的 挑战 问题 ， 从 而 使 所 构造 的 NLP 流水 
线 稍微 聪明 一 点 儿 。 后面 的 第 5 章 会 介绍 统计 聚 类 方法 , 这 些 方法 仅仅 需要 我 们 积累 一 些 包 含 我 
们 感 兴趣 的 词 的 大 量 自然 语言 文本 。 从 这 些 文本 中 , 有 关 词 用 法 的 统计 信息 将 会 给 出 “语义 词 干 ” 
(实际 上 ,是 一 些 更 有 用 的 词 聚 类 结果 ， 如 词 元 或 者 同义词 )， 此 时 并 不 需要 任何 人 工 设 定 的 正则 
表达 式 或 者 词 干 还 原 规则 进行 处 理 。 
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在 NLP 中 ， 分 词 (tokenization， 也 称 切 词 ) 是 一 种 特殊 的 文档 切 分 ( segmentation ) 过 程 。 
而 文档 切 分 能 够 将 文本 拆 分 成 更 小 的 文本 块 或 片段 , 其 中 含有 更 集中 的 信息 内 容 。 文档 切 分 可 以 
是 将 文档 分 成 段落 ,将 段落 分 成 句子 ,将 句子 分 成 短语 ,或 将 短语 分 成 词 条 ( 通常 是 词 ) 和 标点 
符号 。 本 章 主要 关注 将 文本 分 割 成 词 条 的 过 程 ， 这 个 过 程 称 为 分 词 。 

如 果 大 家 之 前 上 过 一 门 有 关 编 译 器 工作 原理 的 计算 机 科学 课程 , 那么 可 能 听 说 过 分 词句 。 用 
于 编译 计算 机 语言 的 分 词 器 通常 称 为 扫描 器 (scanner ) 或 者 词法 分 析 器 (lexer )。 某 种 计算 机 语 
言 的 词汇 表 (所 有 有 效 的 记号 合 ) 构成 所 谓 的 词 库 (lexicon )， 该 术语 仍然 用 于 当前 的 NLP 学 术 
文献 中 。 如 果 分 词 硕 合并 到 计算 机 语言 编译 器 的 分 析 需 〈parser ) 中 ， 则 该 分 析 咒 带 常 称 为 无 扫 
描 需 分 析 器 (scannerless parser )。 而 记号 (token ) 则 是 用 于 分 析 计 算 机 语言 的 上 下 文 无 关 语 法 
(context-free grammar, CFG ) 的 最 终 输出 结果 ， 由 于 它们 终结 了 CRG 中 从 根 节点 到 叶子 节点 的 
一 条 路 径 ， 因 此 它们 也 称 为 终结 符 〈terminal )。 在 第 11 章 中 ， 当 我 们 使 用 CFG 和 正则 表达 式 这 
两 种 形式 语法 从 自然 语言 中 匹配 模式 和 提取 信息 时 ， 会 学 到 更 多 有 关 形 式 语 法 的 知识 。 

对 于 NLP 的 基础 构建 模块 ， 计 算 机 语言 编译 器 中 存在 一 些 与 它们 等 同 的 模块 : 

图 “分词 器 一 一 扫描 器 ， 或 称 词 法 分 析 器 ; 

图 词汇 表 一 一 词 库 ; 

图 分 析 器 一 一 编译 器 ; 

图 词 条 、 词 项 、 词 或 n-gram 一 一 标识 符 或 终结 符 。 

分 词 是 NLP 流水 线 的 第 一 步 ， 因 此 它 对 流水 线 的 后 续 人 处理 过 程 具有 重要 的 有 影响。 分 词 絮 将 
自然 语言 文本 这 种 非 结 构 化 数据 切 分 成 多 个 信息 块 , 每 个 块 都 可 看 成 可 计数 的 离散 元 素 。 这 些 元 
素 在 文档 中 的 出 现 频率 可 以 直接 用 于 该 文档 的 向 量 表 示 。 上 述 过 程 立即 将 非 结 构 化 字符 串 (文本 
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文档 ) 转换 成 适合 机 器 学 习 的 数值 型 数据 结构 。 元 素 的 出 现 频率 可 以 直接 被 计算 机 用 于 触发 有 用 
的 行动 或 回复 。 或 者 ,它们 也 可 以 以 特征 方式 用 于 某 个 机 器 学 习 流 水 线 来 触发 更 复杂 的 决策 或 行 
为 。 通 过 这 种 方式 构建 的 词 袋 向 量 最 常 应 用 于 文档 检索 或 者 搜索 任务 中 。 

对 句子 进行 切 分 的 最 简单 方法 就 是 利用 字符 串 中 的 空白 符 来 作为 词 的 “边界 "。 在 Python 中 ， 
可 以 通过 标准 库 方法 split 来 实现 这 种 操作 , split 在 所 有 的 str 对 象 实例 中 都 可 以 调用 , 也 
可 以 在 str 内 风 类 本 身 进行 调用 。 代 码 清单 2-1 和 图 2-1 给 出 了 调用 的 示例 。 











代码 清单 2-1 将 Monticello 句子 切 分 成 词 条 的 代码 示例 





>>> sentence = """Thomas Jefferson began building Monticello at the 
age of 26.""" 
>>> sentence.split() 
'Thomas', 
'Jefferson', 
"began', 
"building', 
"Monticello', 
ratt, 
'the', 
'age', 
OED; 
Z6 | 
>>> str.split (sentence) 
['Thomas', 
'Jefferson', 
'began', 
'building', 
'Monticello', 
rat 
'the', 
'age', 
"OEM, 
L2G") 


Thomas | Jefferson | began | building | Monticello| at | the | age | of | 26. 


图 2-1 分 词 后 得 到 的 短语 


正如 大 家 看 到 的 那样 ， 上 述 的 Python 内 置 方 法 已 经 对 这 个 简单 的 句子 进行 了 相当 不 错 的 分 词 处 
H, 仅仅 在 最 后 那个 词 上 出 现 一 条 “错误 ”， 即 将 句 尾 的 标点 符号 也 归 入 词 条 当中 而 得 到 “26.”。 通常 
来 说 , 我 们 都 会 期 望 句子 中 的 某 个 词 条 和 周围 的 标点 符号 及 其 他 有 意义 的 词 条 分 开 。 上 面 得 到 的 “26.” 
是 浮 点 数 26.0 的 完美 表示 结果 , 但 是 这 样 的 话 ， 它 和 出 现在 语料库 句子 中 的 “26” 及 可 能 出 现在 问 句 
句 尾 的 “26?” 就 完全 不 是 一 回 事 了 。 一 个 优秀 的 分 词 器 应 该 去 掉 上 面 词 条 中 的 额外 的 字符 而 得 到 ”26”， 
它 是 词 “26” “26!” “26?” “26.” 的 等 价 类 表示 结果 。 此 外 ， 一 个 更 为 精确 的 分 词 器 应 该 也 将 句 尾 的 
标点 符号 作为 词 条 输出 ， 这 样 句子 切 分 工具 或 者 边界 检测 工具 才能 确定 句子 的 结束 位 置 。 

现在 , 我 们 先 利用 当前 这 个 并 不 完美 的 分 词 器 来 进行 分 词 处 理 , 后 面 再 处 理 标点 符号 和 其 他 
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有 挑战 性 的 问题 。 再 利用 一 点 点 Python 技术 ， 我 们 就 能 构建 每 个 词 的 数值 向 量 表示 。 这 些 向 量 
称 为 独 热 向 量 ( one-hot vector )， 很 快 我 们 就 会 知道 这 样 称 呼 它们 的 原因 。 这 些 独 热 向 量 构成 的 
序列 能 够 以 向 量 序列 〈 数字 构成 的 表格 ) 的 方式 完美 捕捉 原始 文本 。 上 述 处 理 过 程 解决 了 NLP 
的 第 一 个 问题 ， 即 将 词 转换 成 数字 : 





str.split0) 是 当前 临 
时 应 急 的 分 词 右 














词汇 表 中 列举 了 所 有 想 要 
记录 的 独立 词 条 ( 词 ) 








>>> import numpy as np 
>>> token_sequence = str.split (sentence) 
>>> vocab = sorted(set (token_sequence) ) 















































>>> ', '. join (vocab) < 

'26., Jefferson, Monticello, Thomas, age, at, began, building, of, the' 

>>> num_tokens = len (token_sequence) 词 条 按照 词 库 顺序 进行 排序 ， 因 此 数字 排 在 
>>> vocab_size = len(vocab) 字母 前 面 ， 大 写字 母 排 在 小 写字 母 前 面 
>>> onehot_vectors = np.zeros((num_tokens, 

ee vocab _size), int) < 

>>> for i, word in enumerate (token sequence): 

oe onehot_vectors[i, vocab.index(word)] = 1 | 

>>> ' '.join(vocab) 


'26. Jefferson Monticello Thomas age at began building of the' 
>>> onehot_vectors 





























array([[0, 0, 0, 1, 0, 0, 0, 0, 0, O], a jens 
6, 1, 0, 0, 0, 0, 0 0, 0» 01, 对 于 句子 中 的 每 个 词 , 将 词汇 表 中 与 
Oy 104: 07; (05: 05, 04 hy 04: 05 50 该 词 对 应 的 列 标记 为 1 
QO Or OF Oy OF Oe Ly 0,0), 
OF: 052 Lr. 1052 105042105. 10,2 0%.. 0] 
OF: OF OF 107-0, 1 7-~0;. "O70 “01:7 
0，0，0， on 0 on gy, RH ARNE TRE RLIADIL ae Pah INA, KE 
r r r r r r r r r r A hh Z. `. 日 4 二 | 和 去 
0, 0, 0, 0, 0, 0, 0, 0, 1, 0l, 是 文档 的 长 度 ， 这 里 是 10 行 10 WA 
Ey 1090 10% 1042 104. 1052 0% 104205. O11) 


如 果 大 家 对 快速 浏览 上 面 的 1 和 0 有 困难 的 话 ， 那 么 有 这 种 感觉 的 不 止 你 一 个 人 。Pandas 
DataFrame 可 以 使 这 些 看 起 来 更 容易 一 些 , 信息 量 也 更 多 一 些 。Pandas 会 利用 Series 对 象 中 的 
辅助 功能 对 一 维 数组 打包 。 此 外 ，Pandas 对 于 表示 数值 型 表格 特别 方便 ， 如 列表 组 成 的 列表 (list)、 
二 维 numpy 数组 、 二 维 numpy 和 矩阵、 数组 组 成 的 数组 以 及 字典 组 成 的 字典 等 。 

DataFrame 为 每 一 列 记录 了 其 对 应 的 标签 ,这 样 就 可 以 将 每 一 列 对 应 的 词 条 或 词 标 在 上 面 。 
为 了 加 快 查找 过 程 ，DataFrame 也 可 以 利用 DataFrame. index 为 每 一 行 记录 其 对 应 的 标签 。 
当然 ， 对 大 部 分 应 用 来 说 ， 行 的 标签 只 是 连续 的 整数 。 在 这 个 有 关 Thomas Jefferson 的 句子 的 独 
热 词 向 量 的 示例 中 ， 我 们 目前 暂时 只 使 用 默认 的 行 标签 整数 。 这 个 示例 参见 代码 清单 2-2。 























代码 清单 2-2 Monticello 句子 的 独 热 向 量 序列 





>>> import pandas as pd 
>>> pd.DataFrame (onehot_vectors, columns=vocab) 











D 即 每 一 行 对 应 当前 位 置 上 的 词 的 向 量 ， 句 子 多 长 就 有 多 少 行 ， 词 汇 表 多 大 就 有 多 少 列 。 一 一 译 者 注 








32 第 2 章 构建 自己 的 词汇 表 一 一 分 词 


26. Jefferson Monticello Thomas age at began building of the 
0 0 0 0 1 0 0 0 0 0 0 
1 0 1 0 0 0 0 0 0 0 0 
2 0 0 0 0 0 0 1 0 0 0 
3 0 0 0 0 0 0 0 1 0 0 
4 0 0 1 0 0 0 0 0 0 0 
5 0 0 0 0 0 1 0 0 0 0 
6 0 0 0 0 0 0 0 0 0 1 
7 0 0 0 0 1 0 0 0 0 0 
8 0 0 0 0 0 0 0 0 1 0 
9 1. 0 0 0 0 0 0 0 0 0 


TPM Aa OR A, BEM T Tale PAE A, 我 们 可 以 把 所 有 的 0 BH 
成 空格 ， 这 样 可 以 使 独 热 行 向 量 表格 看 上 去 更 美观 一 些 。 但 是 ， 不 要 在 机 器 学 习 流 水 线 中 的 
DataFrame 上 进行 这 样 的 操作 , 因为 这 样 做 的 话 会 在 numpy 数组 中 构建 大 量 非 数 值 型 对 象 , 从 
而 导致 数学 计算 上 的 混乱 。 当 然 , 如 果 只 是 为 了 在 显示 上 让 独 热 向 量 序列 像 机 械 音 乐 盒 上 的 圆 简 
或 者 自动 演奏 钢琴 鼓 的 话 ， 那 么 就 可 以 采用 代码 清单 2-3 所 示 的 这 种 便捷 的 数据 展示 方法 。 











代码 清单 2-3 ”更 优美 的 独 热 向 量 展示 





>>> df = pd.DataFrame(onehot_vectors, columns=vocab) 
>>> df[df == 0] = '' 
>>> df 
26. Jefferson Monticello Thomas age at began building of the 
T 
1 


OMANI HO BWNHE OO 
= 


1 


在 上 述 这 个 单 句子 文档 的 表示 中 ， 每 行 的 向 量 都 对 应 一 个 独立 的 词 。 该 句子 包含 10 个 相互 
不 同 的 词 ， 没 有 任何 重复 。 于 是 ， 上 述 表格 包含 10 列 ( 对 应 词汇 表 中 的 词 ) 10 行 (对 应 文档 中 
的 词 )。 每 列 中 的 数字 “1” 表 示 词 汇 表 中 的 词 出 现在 当前 文档 的 当前 位 置 。 因 此 ， 如 果 想 知道 文 
档 中 的 第 3 个 词 是 什么 ， 就 可 以 定位 在 表格 中 的 第 3 行 (由 于 行 从 0 开始 编号 ， 因 此 这 里 的 第 3 
行 对 应 的 编号 为 2 )， 从 这 行 中 找到 数字 “1” 对 应 的 列 。 在 该 列 即 第 7 列 的 头 部 ， 可 以 找到 其 向 
量 表示 对 应 的 词 为 “began” 的 自然 语言 表示 。 

上 述 表格 的 每 一 行 都 是 一 个 二 值 的 行 向 量 , 这 就 是 该 向 量 称 为 独 热 向 量 的 原因 : 这 一 行 的 元 
素 除 一 个 位 置 之 外 都 是 0 或 者 空白 ， 而 只 有 该 位 置 上 是 “ 热 ” 的 (为 1 )。“1” 意 味 着 “打开 ” 
或 者 “ 热 ", 而 0 意味 着 “关闭 ”或 者 “缺失 ”。 之 后 ,我 们 就 可 以 在 NLP 流水 线 中 使 用 向 量 [0， 
0，0，0，0，0，1，0，0，0] 来 表示 词 “began”。 
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上 面 的 词 向 量 表示 及 文档 的 表格 化 表示 有 一 个 优点 ， 就 是 任何 信息 都 没有 丢失 。 只 要 记录 
了 哪 一 列 代表 哪个 词 ， 就 可 以 基于 整 张 表 格 中 的 独 热 向 量 重 构 出 原始 文档 。 即 使 分 词 器 在 生成 我 
们 认为 有 用 的 词 条 时 只 有 90% 的 精确 率 ， 上 述 重 构 过 程 的 精确 率 也 是 100%。 因 此 ， 和 上 面 一 样 
的 独 热 向 量 常常 用 于 神经 网 络 、 序 列 到 序列 语言 模型 及 生成 式 语言 模型 中 。 对 任何 需要 保留 原始 
文本 所 有 含义 的 模型 或 NLP 流水 线 来 说 ， 独 热 向 量 模式 提供 了 一 个 好 的 选择 。 

上 述 独 热 向 量 表 格 就 像 是 对 原始 文本 进行 了 完全 录制 。 如 果 旺 着 眼睛 看 , 大 家 可 能 会 想象 上 
面 的 0-1 矩阵 是 一 个 自动 演奏 钢琴 的 纸 卷 ， 或 者 是 音乐 盒 金 属 鼓 上 的 凸 起 块 ”。 表 格 上 面 的 词汇 

告诉 机 器 的 是 ， 每 个 行 序列 到 底 对 应 哪个 词 ， 就 像 是 钢琴 乐曲 中 应 该 演奏 哪个 “音符 "。 和 自 
动 演奏 钢琴 不 同 的 是 ， 这 里 的 机 械 词 记 录 仪 或 者 播放 器 一 次 只 允许 使 用 一 个 “手指 ”进行 演奏 ， 
即 它 一 次 只 能 演奏 一 个 “音符 ”或 词 。 这 就 是 独 热 的 含义 。 每 个 音符 或 词 按 照 一 致 的 步伐 演奏 ， 
且 演 奏 的 时 长 完全 一 样 ， 即 词 的 间隔 一 直 保持 不 变 。 

但 是 ， 上 面 给 出 的 与 自动 演奏 钢琴 的 类 比 只 是 一 种 考虑 独 热 词 向 量 的 方法 。 大 家 可 以 采用 任 
何 思 考 模型 ， 只 要 该 模型 对 你 有 意义 即 可 。 重 要 的 事情 在 于 , 我们 已 经 将 一 个 自然 语言 的 句子 转 
换 成 了 数值 序列 ， 即 向 量 。 现 在 我 们 可 以 利用 计算 机 读 入 这 些 向 量 并 进行 一 系列 数学 运算 ， 就 像 
对 其 他 向 量 或 者 数值 列表 进行 的 运算 一 样 。 这 样 就 可 以 将 向 量 输入 任何 需要 这 类 向 量 的 自然 语言 
处 理 流 水 线 中 。 

如 果 想 要 为 聊天 机 器 人 生成 文本 , 可 以 基于 独 热 编码 向 量 反 向 还 原 出 文本 内 容 , 就 像 自动 演 
奏 钢 琴 可 以 为 不 那么 挑剔 的 观众 演奏 一 曲 所 做 的 那样 。 现在 所 有 需要 做 的 事情 就 是 , 规划 如 何 构 
建 一 个 能 够 以 新 方式 理解 并 组 合 这 些 词 向 量 的 演奏 钢琴 。 最 后 ， 我 们 期 望 聊天 机 器 人 或 者 NLP 
流水 线 能 够 演奏 或 者 说 出 某 些 以 前 我 们 从 没 听 过 的 东西 。 后 面 在 第 9 章 和 第 10 章 讨论 LSTM 模 
型 和 类 似 的 神经 网 络 时 ， 我 们 会 知道 该 如 何 实现 这 一 点 。 

上 述 基于 独 热 向 量 的 句子 表示 方法 保留 了 原始 句子 的 所 有 细节 , 包括 语法 和 词 序 。 至 此 , 我 
们 已 经 成 功 地 将 词 转换 为 计算 机 能 够 “理解 ”的 数值 。 并 且 这 些 数值 还 是 计算 机 非常 喜欢 的 一 类 
数值 : 二 值 数字 0 或 1。 但 是 , 相对 于 上 述 的 短 句 子 而 言 的 整个 表格 却 很 大 。 如 果 考 虑 到 这 一 点 ， 
大 家 可 能 已 经 对 文件 的 大 小 进行 了 扩充 以 便 能 够 存储 上 述 表格 。 但 是 , 对 长 文档 来 说 这 种 做 法 不 
太 现实 ， 此 时 文档 的 大 小 ( 上述 向 量 组 成 的 表格 的 长 度 ) 会 急剧 增加 。 英 语 中 包含 至 少 20 000 
个 常用 词 ， 如 果 还 要 考虑 人 名 和 其 他 专用 名 词 的 话 , 词 的 数量 就 会 达到 数 百 万 个 。 对 于 要 处 理 的 
每 篇 文档 , 其 独 热 表示 方法 都 需要 一 个 新 的 表格 ( 矩阵 ), 这 基本 上 相当 于 得 到 了 文档 的 原始 “ 映 























































































































































































































D 这 里 说 的 能 恢复 原始 文档 没有 考虑 分 词 器 中 用 于 分 隔 词 的 不 同 空白 符 。 如 果 分 词 器 不 保留 在 分 词 中 丢掉 
的 空白 符 的 话 ， 要 完全 恢复 原始 文档 是 不 可 能 的 。 如 果 分 词 器 不 保留 这 些 信息 ， 就 没 法 知道 词 之 间 应 该 
插入 的 到 底 是 空格 、 换 行 符 、 制 表 符 还 是 什么 都 不 插入 。 但是， 空白 符 的 信息 内 容量 不 大 ， 在 大 部 分 英 
文 文档 中 可 以 忽略 不 计 。 当 然 ， 在 很 多 现在 的 NLP 分 析 器 和 分 词 器 中 ， 如 果 需 要 的 话 ， 都 会 保留 空白 
符 的 信息 。 
© 参考 维基 百科 中 的 “Player piano” 条 目 。 
© 详 见 维基 百科 中 标题 为 “Music box” 的 网 页 。 
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像 ”， 如 果 大 家 做 过 一 些 图 像 处 理 的 话 ， 就 知道 如 果 要 从 数据 中 提取 有 用 信息 的 话 就 必须 进行 降 
维 处 理 。 

下 面 简单 地 用 数学 演算 一 下 , 以 便 大 概 了 解 这 些 “ 自 动 演奏 钢琴 纸 卷 "到底 有 多 大 和 多 笨拙。 
大 部 分 情况 下 ，NLP 流水 线 中 使 用 的 词汇 表 中 的 词 条 数 将 远 远 超 过 10 000 或 20 000， 有 时 可 能 
会 达到 数 十 甚至 上 百 万 。 假 设 我 们 的 NLP 流水 线 的 词汇 表 包 含 100 万 个 词 条 ， 并 且 假 设 我 们 拥 
有 3 000 本 很 薄 的 书 ， 每 本 书包 含 3 500 个 句子 ,每 个 句子 平均 由 15 个 词组 成 ,对 薄 书 而 言 ， 上 
述 平均 值 是 比较 合理 的 。 我 们 会 看 到 ， 整 个 表格 FEE) 会 很 大 : 






































>>> num rows = 3000 * 3500 * 15 | 表格 中 的 行 数 


>>> num rows 














57500000 

>>> num bytes = num rows * 1000000 如 果 表 格 中 每 个 元 素 只 用 一 个 字 节 表 
>>> num bytes 示 的 话 ， 那么 这 一 项 是 总 字 节 数 
57500000000000 


>>> num_bytes / le9 
57500 # gigabytes 


>>> _ / 1000 | 在 Python 交互 式 控制 台 , 变量 " "会 被 自动 赋予 前 面 语句 的 输出 值 。 如 果 















































olsn Gere es 忘 了 将 函数 或 表达 式 的 输出 显 式 赋值 给 某 个 变量 ( 如 上 面 对 num bytes 
和 num_rows 进行 了 显 式 赋值 ) 时 ， 这 种 处 理 方式 十 分 方便 




















即使 将 表格 中 的 每 个 元 素 用 单个 位 来 表示 , 这 个 表格 也 超过 了 百 万 位 乘 以 百 万 位 的 规模 。 在 
单个 位 表示 一 个 元 素 的 情况 下 ,大概 需 要 20 TB 来 存储 上 述 小 小 书架 上 的 书籍 。 幸 运 的 是 ,我 们 
从 来 都 不 需要 用 上 面 的 数据 结构 来 存储 文档 。 只 有 在 一 个 词 一 个 词 处 理 文档 时 , 才 会 临时 在 内 存 
中 使 用 上 述 数据 结构 。 

因此 , 存储 所 有 0 并 试图 记 住所 有 文档 中 的 词 序 并 没有 太 大 意义 ,也 不 太 现 实 。 我 们 真正 想 
要 做 的 实际 是 将 文档 的 语义 压缩 为 其 本 质 内 容 。 我 们 想 将 文档 压缩 成 单个 向 量 而 不 是 一 张大 表 。 
而 且 我 们 将 放弃 完美 的 “召回 ”过 程 ， 我 们 想 做 的 是 提取 文档 中 的 大 部 分 而 非 全 部 含义 (信息 )。 

如 果 把 文档 分 成 非常 短 的 有 意义 的 块 ， 如 句子 ， 会 怎么 样 ? 如 果 我 们 假设 一 个 句子 的 大 部 分 意义 
都 可 以 从 词 本 身 获得 , 那 又 会 怎么 样 呢 ? 假设 我 们 可 以 忽略 词 的 顺序 和 语法 , 并 将 它们 混合 在 一 个 “ 袋 
子 ” 中 ， 每 个 句子 或 每 篇 短文 档 对 应 一 个 “袋子 ” 。 这 个 假设 被 证 实 为 合理 的 。 即 使 对 于 长 达 几 页 的 文 
档 ， 词 袋 向 量 也 可 以 用 来 概括 文档 的 本 质 内 容 。 对 于 前 面 那 名 关于 Jefferson 的 句子 ， 即 使 把 所 有 的 词 
都 按 词 库 序 重新 排序 ， 人 们 也 可 以 猜 出 那 句 话 的 大 致意 义 。 机 器 也 可 以 实现 这 一 点 。 我 们 可 以 使 用 这 
种 新 的 词 袋 向 量 方法 ， 将 每 篇 文档 的 信息 内 容 压缩 到 更 易 处 理 的 数据 结构 中 。 

如 果 把 所 有 这 些 独 热 向 量 加 在 一 起 ， 而 不 是 一 次 一 个 地 “回放 ”它们 , 我 们 会 得 到 一 个 词 袋 
向 量 。 这 个 向 量 也 被 称 为 词 频 向 量 ， 因 为 它 只 计算 了 词 的 频率 (frequency )， 而 不 是 词 的 顺序 。 
这 个 具备 合理 长 度 的 单一 向 量 可 以 用 来 表示 整 篇 文档 或 整个 句子 , 其 长 度 只 相当 于 词汇 表 的 大 小 
(需要 记录 的 独立 词 条 数 )。 

另 一 种 做 法 是 ， 如 果 正 在 进行 基本 的 关键 词 搜索 ， 可 以 对 这 些 独 热 词 向 量 进行 OR 处 理 ， 从 
而 得 到 一 个 二 值 的 词 袋 向 量 。 在 搜索 中 可 以 忽略 很 多 词 ， 这 些 词 并 不 适合 作为 搜索 词 或 关键 词 。 
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这 对 搜索 引擎 索引 或 信息 检索 系统 的 第 一 个 过 滤器 来 说 都 很 不 错 。 搜 索索 引 只 需要 知道 每 篇 文档 
中 每 个 词 的 存在 与 否 ， 以 帮助 我 们 后 续 找 到 这 些 文档 。 
就 像 把 手臂 放 在 钢琴 上 , 一 次 弹 完 所 有 的 音符 ( 词 ) 并 不 会 给 我 们 带 来 愉快 而 有 意义 的 体验 。 
尽管 如 此 ， 这 种 方法 被 证 实 对 于 帮助 机 器 将 整 组 词 “ 理 解 ” 为 一 个 单元 至 关 重 要 。 如 果 将 词 条 限 
制 在 10 000 个 最 重要 的 词 以 内 ， 就 可 以 将 刚才 虚构 的 包含 3 500 个 句子 的 书 的 数值 表示 压缩 到 
10 KB， 也 就 是 说 上 述 虚 构 的 3 000 本 书 构 成 的 语料库 大 约会 压缩 到 30 MB 左右 。 独 热 向 量 构成 
的 序列 仍然 需要 占用 数 百 GB 的 空间 。 

幸运 的 是 , 对 于 任何 给 定 的 文本 , 词汇 表 中 的 词 只 有 很 少 一 部 分 会 出 现在 这 个 文本 中 。 而 对 
大 多 数 词 袋 应 用 来 说 ,往往 会 保持 文档 的 简洁 性 ， 有 时 候 一 个 句子 就 够 了 。 所 以 , 与 其 一 次 弹 完 
钢琴 上 的 所 有 音符 ， 还 不 如 只 弹 奏 一 些 音符 ( 词 ) 的 组 合 ( 词 袋 向 量 更 像 是 一 个 宽广 而 悦耳 的 钢 
琴 和 弦 )， 因 为 它们 能 很 好 地 结合 在 一 起 并 有 意义 。 后 面 介 绍 的 聊天 机 器 人 可 以 处 理 这 些 和 弱 ， 
即使 同一 个 语句 中 有 很 多 通常 不 会 一 起 使 用 的 词 而 产生 不 和 谐 , 甚至 这 种 不 和 谐 也 包含 很 多 与 语 
句 相 关 的 有 用 信息 ， 机 器 学 习 流 水 线 也 可 以 利用 这 些 信息 。 

这 就 是 如 何 将 词 条 放 入 一 个 二 值 向 量 的 过 程 , 这 个 向 量 可 以 表示 某 个 具体 词 在 某 个 特定 句子 
中 是 否 存在 。 一 系列 句子 的 上 述 向 量 表示 可 以 “索引 ”起 来 , 从 而 记录 哪个 词 出 现在 哪 篇 文档 中 。 
这 个 索引 和 我 们 在 很 多 教科 书 末尾 看 到 的 索引 是 一 样 的 , 除了 不 记录 词 出 现在 哪个 页 面 , 这 里 可 
以 保存 句子 (或 相关 向 量 ) 的 出 现 位 置 。 教 科 书 的 索引 一 般 只 关心 与 书 的 主题 相关 的 重要 词 ， 但 
是 至 少 到 现在 为 止 我 们 记录 了 每 个 词 。 

下 面 就 是 那 篇 单 文本 文档 ， 文 档 中 只 有 一 个 关于 Thomas Jefferson 的 句子 ， 看 上 去 像 一 个 二 
值 的 词 袋 向 量 : 


>>> sentence_bow = {} 
>>> for token in sentence.split(): 




















































































































as sentence_bow[token] = 1 
>>> sorted(sentence bow.items() ) 
[('26.', 1) 


('Jefferson', 1), 
('Monticello', 1), 
( Thomas” ,- Liy 
('age', 1), 

ratta I}; 
('began', 1), 
('building', 1), 
(“ot so Ly 

Pees aA] 





你 可 能 会 注意 到 , Python 的 sorted () 将 十 进 制 数 放 在 字符 之 前 , 同时 将 大 写 的 词 放 在 小 写 
的 词 之 前 。 这 是 ASCII 和 Unicode 字符 集中 的 字符 顺序 。 在 ASCH 表 中 , 大 写字 母 在 小 写字 母 之 
前 。 其 实 ， 词 汇 表 的 顺序 并 不 重要 ， 只 要 所 有 需要 分 词 的 文档 都 采用 相同 的 方式 ， 机 器 学 习 流 水 
线 就 可 以 很 好 地 处 理 任 何 词 汇 表 顺序 。 

你 可 能 还 注意 到 ， 使 用 dict (或 任何 词 到 0/1 值 的 成 对 映射 ) 存储 二 值 向 量 不 会 浪费 太 多 
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空间 。 使 用 字典 来 表示 向 量 可 以 确保 只 需要 存储 为 数 不 多 的 1， 因 为 字典 中 的 数 千 甚 至 数 百 万 个 
词 中 只 有 极 少 一 部 分 会 出 现在 某 篇 具体 文档 中 。 我 们 可 以 看 到 , 上 述 表 示 会 比 将 一 袋 间 表示 为 连 
续 的 0 和 1 的 列表 要 高 效 得 多 ， 后 者 用 一 个 “密集 ”向 量 为 词汇 表 ( 如 100 000 个 词 ) 中 的 每 个 
词 都 指定 一 个 位 置 。 即 使 对 于 上 面 这 个 有 关 “Thomas Jefferson” 的 短 句 子 ， 采 用 “密集 ”的 二 值 
向 量 也 需要 100 KB 的 存储 空间 。 因 为 字典 会 “忽略 ”不 存在 的 词 ， 即 那些 标记 为 0 的 词 ， 所 以 用 
字典 表示 时 只 需要 对 10 个 词 的 句子 中 的 每 个 词 用 几 字 节 来 表示 。 而 如 果 把 每 个 词 都 表示 成 指向 词 
E (为 具体 应 用 构造 的 词 表 ) 内 该 词 所 在 位 置 的 整数 指针 ， 那 么 这 个 字典 的 效率 可 能 会 更 高 。 

接 下 来 , 我 们 使 用 一 种 更 有 效 的 字典 形式 , 即 Pandas 中 的 Series, 可 以 把 它 封装 在 Pandas 
的 DataFrame 中 ， 这 样 就 可 以 向 关于 Thomas Jefferson 的 二 值 向 量 文本 “语料库 ”中 添加 更 多 的 
句子 。 当 在 DataFrame ( 与 语料库 文本 对 应 的 向 量 表 ) 中 添加 更 多 的 句子 和 其 相应 的 词 袋 向 量 时 ， 
所 有 这 些 向 量 之 间 以 及 稀疏 与 密集 词 袋 之 间 的 差距 就 会 变 得 清晰 起 来 : 


>>> import pandas as pd 
>>> df = pd.DataFrame (pd.Series(dict([(token, 1) for token in 




















sentence.split()])), columns=['sent']).T 
>>> df 

26. Jefferson Monticello Thomas age at began building of the 
sent 1 ‘A A 1 1 1 A J Al 1 





下 面 往 语料库 中 增加 一 些 文本 ， 看 看 DataFrame FEA HEB ADE AS, WF CRRA 2-4 所 示 。 
DataFrame 同时 索引 了 列 (文档 ) 和 行 ( 词 ), 因此 当 需 要 马上 得 到 某 个 问题 答案 时 , 该 DataFrame 
可 以 当成 文档 检索 中 的 倒 排 索引 (inverse index )。 








代码 清单 2-4 构建 词 袋 向 量 的 DataFrame 





>>> sentences = """Thomas Jefferson began building Monticello at the\ 

age of 26.\n""" < 
>>> sentences += """Construction was done mostly by local masons and\ 
carpenters. \n""" 





>>> sentences += "He moved into the South Pavilion in 1770.\n" 
>>> sentences += """Turning Monticello into a neoclassical masterpiece\ 
was Jefferson's obsession. """ 

































































Soi corpus =- 1 这 是 代码 清单 2-1 中 
m—>>>> for i, sent in enumerate(sentences.split('\n"')): 定义 的 原始 句子 
corpus['sent{}'.format(i)] = dict((tok, 1) for tok in 
eros sent.split()) 
>>> df = pd.DataFrame.from_records (corpus) .fillna(0).astype(int).T 
>>> df[df.columns[:10]] < 
1770. 26. Construction oat Pavilion South Thomas 
sento 0 于 0 re 0 0 1 
sentl 0 0 aes 0 0 0 
sent2 0 0 oat 1 1 0 
sent3 0 0 0 0 0 0 
一 般 情况 下 只 需要 使 用 .splitlines0 即 可 ,但 是 这 里 显 式 地 在 每 个 行 ee i 
尾 增加 了 单个 m 字 符 ， 因 此 这 里 需要 显 式 地 对 此 字符 进行 分 害 Bier own Conidae tne 
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稍微 扫 视 一 下 这 个 例子 ， 就 可 以 发 现 这 些 句子 所 用 的 重合 词 很 少 。 在 词汇 表 的 前 7 个 词 当中 ， 
只 有 Monticello 出 现在 不 止 一 个 句子 当中 。 接 下 来 ， 当 需要 进行 文档 比较 或 者 搜索 相似 文档 时 ， 
必须 要 能 够 利用 流水 线 来 计算 上 述 的 重合 程度 。 一 种 计算 句子 相似 度 的 方法 就 是 使 用 点 积 ( 也 称 
内 积 ) 来 计算 重合 词 条 的 数量 。 























2.2.1 点 积 


在 自然 语言 处 理 中 将 会 有 多 处 用 到 点 积 , 因此 我 们 要 确认 掌握 了 点 积 的 概念 。 如 果 已 经 理解 
这 一 概念 ， 那 么 可 以 跳 过 本 节 。 

点 积 也 称 为 内 积 ( inner product )， 这 是 因为 两 个 向 量 ( 每 个 向 量 中 的 元 素 个 数 ) 或 矩阵 (第 
一 个 矩阵 的 行 数 和 第 二 个 矩阵 的 列 数 ) 的 “内 部 ”维度 必须 一 样 ， 这 种 情况 下 才能 相 乘 。 这 和 关 
系数 据 库 表 的 内 连接 ( inner join ) 操作 很 类 似 。 

点 积 也 称 为 标 积 ( scalar product )， 因 为 其 输出 结果 是 个 单独 的 标量 值 。 这 使 其 有 别 于 又 积 
(cross product) 这 个 概念 ， 后 者 的 输出 结果 是 一 个 向 量 。 显 然 ， 这 些 名称 体 现 了 标识 符 的 形状 ， 
在 正式 数学 符号 当中 ， 标 积 用 “ ”表示 ， 叉 积 用 “ x ”表示 。 将 参与 标 积 计算 的 两 个 向 量 的 
所 有 对 应 元 素 相 乘 然 后 将 这 些 乘 积 相 加 就 可 以 得 到 最 后 的 标量 结果 。 

代码 清单 2-5 中 给 出 了 一 段 Python 代码 ， 你 可 以 按照 Python 的 一 贯 用 法 在 头脑 里 模拟 运行 
这 段 代码 ， 以 确信 掌握 了 点 积 的 概念 。 











代码 清单 2-5 点 积 计 算 示例 





>>> vl = pd.np.array([1, 2, 3]) 
>>> v2 = pd.np.array([2, 3, 4]) 
>>> vil.dot (v2) 


























a numpy 数组 的 乘积 是 一 种 十 分 

>>> (vl * v2).sum() 高 效 的 “向 量 式 ”运算 

20 

BAe i teh sine are a N re 如 果 不 想 降低 流水 线 的 处 理 速度 ， 就 
不 要 这 样 在 向 量 内 部 进行 迭代 处 理 

提示 点 积 和 和 矩阵 乘积 (matrix product ) 计算 是 等 价 的 ， 后 者 可 以 在 numpy 中 使 用 np.matmul () 











函数 或 者 6 操作 符 来 实现 。 由 于 所 有 的 向 量 都 可 以 转换 成 Nx 1 或 者 1xN 的 和 矩阵， 因此 可 以 使 用 这 
种 短 记 号 作用 于 两 个 列 向 量 (NX 1 )， 其 中 第 一 个 向 量 必须 要 转 置 ， 这 样 才 可 以 相 乘 。 就 像 这 样 
vl.reshape(-1, 1) .T@ V2.reshape(-1, 1) ,最 后 ,就 会 在 一 个 1x1 和 矩阵 arrary([[20]]) 
中 输出 最 后 的 标量 结果 。 


2.2.2 ”度量 词 袋 之 间 的 重合 度 


如 果 能 够 度量 两 个 向 量词 袋 之 间 的 重合 度 , 就 可 以 很 好 地 估计 它们 所 用 词 的 相似 程度 ,而 这 
也 是 它们 语义 上 重合 度 的 一 个 很 好 的 估计 。 因 此 ,下 面 使 用 刚刚 学 到 的 点 积 来 估计 一 些 新 句子 和 
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原始 的 Thomas Jefferson 句子 ( sent0 ) 之 间 的 词 袋 向 量 重 合 度 ， 如 代码 清单 2-6 所 示 。 


代码 清单 2-6 ”两 个 词 袋 向 量 之 间 的 重合 词 数 计算 





>>> df = df.T 
>>> df.sent0.dot (df.sent1) 


>>> df.sent0.dot (df.sent2) 


>>> df.sent0.dot (df.sent3) 





上 面 的 结果 表明 ， 有 一 个 词 同 时 出 现在 sent0 和 sent2 中 。 同 理 ， 某 个 词 同时 出 现在 sento 
和 sent3 中 。 词 之 间 的 重合 度 可 以 作为 句子 相似 度 的 一 种 度量 方法 。 有 趣 的 是 ， 那 个 古怪 的 句 
F sent1， 是 其 中 唯一 没有 直接 提 到 Jefferson 或 者 Monticello 的 句子 ， 但 是 它 使 用 了 一 个 完全 
不 同 的 词 集合 来 表达 其 他 匿名 人 士 的 信息 。 

下 面 给 出 了 一 种 找 出 sento 和 sent3 当中 那个 共享 词 的 方法 , 该 词 使 代码 清单 2-6 中 最 后 
一 个 点 积 计算 的 结果 为 1。 














>>> [(k, v) for (k, v) in (df.sentO & df.sent3).items() if v] 
[('Monticello', 1)] 




















这 是 你 的 自然 语言 文档 ( 句子 ) 的 第 一 个 向量 空间 模型 ( vector space model, VSM )。 对 于 
词 袋 向 量 , 不 仪 可 以 使 用 点 积 ， 也 可 以 定义 其 他 的 向 量 运算 ， 如 向 量 加 、 减 、OR 与 AND 等 ， 
甚至 还 可 以 采用 类 似 欧 几 里 得 距离 或 者 向 量 夹 角 这 样 的 计算 。 将 文档 表示 成 二 值 向 量具 有 强大 
的 作用 ， 多 年 来 ， 它 一 直 是 文档 检索 和 搜索 的 支柱 。 所 有 现代 CPU 都 有 硬 连 线 内 存 寻 址 指令 ， 
这 些 指令 可 以 有 效 地 哈 希 、 索 引 和 搜索 大 量 这 样 的 二 值 向 量 。 虽然 这 些 指 令 是 为 男 一 个 目的 ( 索 
引 内 存 位 置 以 从 内 存 中 检索 数据 ) 而 构建 的 , 但 是 它们 在 搜索 和 检索 文本 的 二 值 向 量 运 算 中 同 
样 有 效 。 




















2.2.3 ”标点 符号 的 处 理 


某 些 情况 下 ， 除 空格 之 外 还 有 一 些 字符 用 于 将 句子 中 的 词 分 隔 开 。 大 家 应 该 仍然 记得 词 条 
“26.” 末 尾 那 个 讨厌 的 名 号。 分 词 器 不 仅 可 以 利用 空格 还 可 以 基于 标点 符号 ( 如 逗号 、 句号、 分 
号 甚至 连 字符 ) 将 句子 切 开 。 在 某 些 情况 下 , 我们 希望 这 些 标点 符号 也 像 词 一 样 ,被 看 成 独立 的 
词 条 。 但是， 在 男 一 些 情况 下 可 能 又 要 忽略 这 些 标点 符号 。 

在 前 面 那个 例子 中 , 对 于 句子 中 的 最 后 一 个 词 条 “26.”, 由 于 其 末尾 句号 的 原因 而 导致 出 错 。 
末尾 的 句号 可 能 会 对 NLP 流水 线 的 后 续 部 分 如 词 干 还 原 造成 误导 ， 因 为 词 干 还 原 的 目的 是 利用 
规则 将 相似 词 聚 成 组 ， 而 这 些 规则 往往 要 基于 一 致 的 词 拼写 结果 。 代 码 清单 2.7 给 出 了 将 标点 作 
为 分 隔 符 的 一 种 做 法 。 
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代码 清单 2-7 ”利用 正则 表达 式 对 Monticello 句子 进行 切 分 





>>> import re 
























































>>> sentence = """Thomas Jefferson began building Monticello at the\ 
age of 26.""" 

>>> tokens = re.split(r'[-\s.,;!?]+', sentence) 

>>> tokens 

{'Thomas', 这 将 会 基于 至 少 出 现 一 次 ( 注意 正则 表达 
'Jefferson', 式 中 右 方 括 号 后 面 的 '+' ) 的 空格 或 者 标点 
'began', 符号 来 对 句子 进行 分 割 。 参 考 下 面 的 “ 正 
‘building’, 则 表达 式 的 编译 时 机 ”部 分 
"Monticello', 
‘at', 
'the', 
'age', 
"OE 4 
PA sp 


stj 

我 们 约定 将 使 用 更 多 的 正则 表达 式 , 希望 大 家 比 最 初 使 用 时 更 加 理解 它们 。 如 果 不 是 这 样 的 
话 , 下 面 的 “正则 表达 式 的 编译 时 机 ”部 分 会 介绍 正则 表达 式 的 每 个 字符 的 意义 。 想 更 加 深入 地 
了 解 正 则 表达 式 ， 参 见 附录 Bo 


1. 正则 表达 式 的 工作 机 理 


这 里 给 出 了 代码 清单 2-7 中 正则 表达 式 的 工作 机 理 。 方 括号 [和 ] 表示 一 个 字符 类 ， 即 字符 集 。 
右 方 括号 ] 后 面 的 + 表示 必须 匹配 方 括号 内 的 一 个 或 多 个 字符 。 字 符 类 中 的 \s 是 一 个 预定 义 字 符 
类 的 快捷 表示 ， 该 字符 类 包括 所 有 的 空白 符 ， 如 殴 击 空格 键 、 制 表 键 或 者 回 车 键 产生 的 字符 。 字 
PE r' [\s] EOF r' \t\n\r\x0b\x0c'。6 个 空白 符 分 别 是 空格 ('' )、 制 表 符 ('\t' )、 
换行 符 ('\n' )、 回 车 符 ('\r' ) 以 及 换 页 符 CAE) 

这 里 没有 使 用 任何 字符 区 间 , 后 面 可 能 会 用 到 。 字 符 区 间 是 一 种 特定 的 字符 类 , 方 括号 中 采 
用 连 字 符 来 表示 ， 如 r' [a-z] ' 可 以 匹配 所 有 的 小 写字 母 。 字 符 区 间 r' [0-9]' 匹 配 任何 从 0 
到 9 的 数字 ， 其 等 价 于 rx' [0123456789]'。 正 则 表达 式 xr' [_ a-zA-z]' 表 示 可 以 匹配 任意 下 
划 线 字符 或 者 英文 字母 ( 大 小 写字 母 )。 

左 方 括号 之 后 的 连 字符 ( - ) 是 正则 表达 式 的 一 个 惯 有 用 法 。 连 字符 不 能 放 在 方 括号 内 的 任 
何其 他 地 方 , 否则 正则 表达 式 解 析 器 会 认为 这 里 意味 着 有 一 个 字符 区 间 , 如 r' [10-9]'。 NTK 
明确 实 是 一 个 真正 的 连 字 符 , 必须 将 其 放 在 紧 挨 在 该 字符 类 左 方 括号 的 后 面 。 因此, 任何 需要 表 
明 是 真正 连 字符 的 地 方 ， 都 应 使 其 要 么 是 左 方 括号 后 的 第 一 个 字符 ， 要 么 通过 转 义 符 来 表示 。 
re.split 郑 数 从 左 到 右 遍 历 输入 字符 串 〈 即 函数 的 第 二 个 参数 sentence) 中 的 每 个 字符 ， 
并 根据 正则 表达 式 ( 即 函 数 的 第 一 个 参数 ，r' [-\s.，; 1!?]+ ') 进行 匹配 。 一 旦 发 现 有 匹配 上 的 
字符 ， 它 会 在 匹配 上 的 字符 之 前 和 之 后 分 割 字 符 串 ， 同 时 跳 过 匹配 的 一 个 或 多 个 字符 。re. split 
那 一 行 的 处 理 就 像 str .split 一 样 ， 但 它 适 用 于 任何 与 正则 表达 式 匹配 的 字符 或 多 字符 序列 。 

圆 括 号 (和 ) 用 于 对 正则 表达 式 进行 分 组 ， 就 像 它 们 用 于 对 数学 、Python 和 大 多 数 其 他 编程 
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语言 表达 式 进 行 分 组 一 样 。 这 些 圆 括号 强制 正则 表达 式 匹 配 圆 括号 内 的 整个 表达 式 , 然后 再 尝试 








匹配 圆 括号 后 面 的 字符 。 
2. 改进 的 用 于 分 词 的 正则 表达 式 








我 们 对 正则 表达 式 进行 编译 从 而 加 快 分 词 絮 的 运行 速度 。 编 译 后 的 正则 表达 式 对 象 在 很 多 方 





























面 都 比较 方便 ， 而 不 仅仅 是 速度 。 
正则 表达 式 的 编译 时 机 























Python 中 的 正则 表达 式 模块 可 以 对 正则 表达 式 进行 预 编译 *”， 这 样 就 可 以 在 代码 库 中 对 它们 进行 复 












































用 。 例 如 ， 有 一 个 正则 表达 式 可 以 提取 电话 号 码 。 可 以 使 用 re .compile () 对 该 表达 式 进行 预 编译 ， 然 
后 可 以 将 其 以 参数 方式 传递 给 分 词 函 数 或 者 类 。 因 为 Python 会 对 最 近 的 MAXCACHE=100 个 正则 表达 式 
的 编译 对 象 进行 缓存 ， 所 以 上 述 处 理 基本 不 会 带 来 速度 上 的 好 处 。 但 是 如 果 有 超过 100 个 不 同 的 正则 表 
达 式 在 同时 工作 , 或 者 想 调 用 正则 表达 式 的 方法 而 不 是 相应 的 re 函数 的 话 ，re .compile MERA: 








































































































区 人 过 em seomeoe ee ENS e DET) 

>>> tokens = pattern.split (sentence) 

>>> tokens[-10:] # just the last 10 tokens 

the 1 eA ‘age', 1 fae rapt 1 ie YO Gale er | 





























a B Stack Overflow 网 站 或 者 最 新 的 Python 文档 来 获得 更 多 细节 信息 。 














上 面 这 个 简单 的 正则 表达 式 有 助 于 将 最 后 一 个 词 条 “26.” 的 末尾 句号 分 隔 出 去 。 











但 是 ， 这 








样 做 会 遇 到 一 个 新 问题 。 我 们 必须 将 不 想 放 和 词汇 表 中 的 空白 符 和 标点 符号 过 滤 掉 。 
代码 片段 以 及 图 2-2。 






































>>> sentence = """Thomas Jefferson began building Monticello at the\ 
age of 26.""" 

>>> tokens = pattern.split (sentence) 

>>> [x for x in tokens if x and x not in '- \t\n.,;!?"'] 

{'Thomas', 
'Jefferson', 如 果 想 练习 使 用 lambda 表达 式 和 
"began', filter(0) 函 数 ， 就 使 用 list(filterdambda 
"building', x: x if x and x not in '- \t\n.,;!9' else 
'Monticello', None, tokens)) 
ratiy 
'the', 
'age', 
TORN, 
'26'] 


Thomas | Jefferson | began | building | Monticello| at | the | age | of | 26]. 


42-2 ” 切 分 后 的 短语 


因此 , Python 内 置 的 re 包 看 上 去 对 于 上 述 示例 句子 处 理 得 很 好 ,只 要 注意 过 滤 掉 
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戎 下面 的 


些 不 想 要 


的 词 条 即 可 。 实 在 没有 别 的 理由 需要 从 别 的 地 方 找 一 个 其 他 的 正则 表达 式 包 ， 除 非 满 足以 下 条 件 。 
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使 用 Python 中 新 的 正则 表达 式 包 的 时 机 
Python 中 个 新 的 正则 表达 式 包 regex， 它 将 最 终 禁 代 re 包 。 它 是 完全 后 向 兼容 的 ， 可 以 通过 
pip 命令 从 pypi PRI. regex 包含 一 些 新 的 特性 ， 其 中 包括 对 如 下 方面 的 支持 : 
E ”集合 的 重合 匹配 ， 
多 线程 ; 
特性 完备 地 支持 Unicode; 
近似 正则 表达 式 匹配 ( 类 似 于 UNIX 系统 的 TRE agrep ); 
更 大 的 MAXCACHE 默认 值 ( 500 个 正则 表达 式 )。 
E regex KRAER re 包 ， 并 且 它 也 会 与 re 保持 完全 的 后 向 兼容 ， 但 现在 大 家 必须 利用 pip 
等 包 管理 工具 来 将 它 作为 一 个 额外 的 包 安 装 : 
$ pip install regex 


要 获得 有 关 regex 的 更 多 信息 ， 可 以 参考 PyP| 网 站 。 


正如 大 家 能 想到 的 那 伴 ， 分 词 带 很 容易 就 变 得 复杂 无 比 。 在 某 种 情况 下 ， 我 们 可 能 想 在 句号 〈. ) 
处 进行 分 割 ， 但 是 这 时 候 句 号 后 面 不 能 跟着 数字 ， 否 则 ， 我 们 可 能 会 把 小 数 切 开 。 在 另 一 种 情况 下 ， 
我 们 可 能 不 会 在 句号 后 分 制 句 子 , 这 是 因为 此 时 句号 是 微笑 表情 符号 的 一 部 分 ， 就 像 在 推 文中 的 那样 。 
有 多 个 Python 库 可 以 用 于 分 词 ， 它 们 的 优 缺 点 如 下 : 
m spaCy 一 一 精确 、 灵 活 、 快 速 ， 用 Python 语言 编写 ; 
E Stanford CoreNLP 一 一 更 精确 ， 但 是 不 够 灵活 、 快 速 ， 依 赖 Java 8; 
E NLTK 一 一 很 多 NLP 竞赛 和 对 比 的 标 配 ， 流行 ,用 Python 语言 编写 。 
NLTK 和 Stanford CoreNLP 历史 最 悠久 ， 在 很 多 学 术 论 文中 的 NLP 算法 的 对 比 评测 中 使 用 
也 最 广泛 。 尽 管 Stanford CoreNLP 具有 Python API， 但 它 还 要 依赖 Java 8 的 CoreNLP 后 端 ， 
而 需要 另外 安装 和 配置 。 因 此 , 我 们 在 这 里 可 以 使 用 NLTK (Natural Language Toolkit ) 分 词 器 来 
快速 运行 示例 ， 这 将 帮助 大 家 快速 重 现 在 学 术 论文 或 者 博客 上 看 到 的 实验 结果 。 
我 们 可 以 使 用 NLTK 函数 RegexpTokenizer 重 现 上 面 的 简单 分 词 器 示例 : 
>>> from nltk.tokenize import RegexpTokenizer 
>>> tokenizer = RegexpTokenizer (r'\wt|/$[0-9.]+|/\S+') 
>>> tokenizer.tokenize (sentence) 
{'Thomas', 
'Jefferson', 
"began', 
"building', 
"Monticello', 
rats, 
the", 
'age', 
TOES 
1263 
| 
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六 里 的 表述 是 针对 英文 语句 而 言 的 ， 因 为 美文 中 的 句号 与 小 数 点 都 是 “.”。 一 一 译 者 注 
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上 述 分 词 器 比 原来 那个 要 稍微 好 点 儿 , 它 忽略 了 空白 符 词 条 , 并 且 可 将 不 包含 其 他 标点 符号 
的 词 条 中 的 句 尾 标点 符号 分 隔 开 来 。 

一 个 更 好 的 分 词 嚣 是 来 自 NLTK 包 的 TreebankWordTokenizer 分 词 器 , 它 内 置 了 多 种 常见 的 英语 
分 词 规则 。 例 如 ， 它 从 相 邻 的 词 条 中 将 短语 结束 符号 Ol.) 分 开 ， 将 包含 句号 的 小 数 当成 单个 
词 条 。 另 外 ， 它 还 包含 一 些 英文 缩 略语 的 规则 ， 例 如 ,“don't” 会 切 分 成 ["do"，"n't"]。 该 
分 词 器 将 有 助 于 NLP 流水 线 的 后 续 步 又 ， 如 词 干 还 原 。 我 们 可 以 从 自然 语言 工具 包 (NLTK ) 
网 站 获取 所 有 TreebankWordTokenizer 分 词 器 的 规则 。 下 面 给 出 一 段 代 码 ， 代 码 的 运行 结果 如 
图 2-3 所 示 。 


>>> from nltk.tokenize import TreebankWordTokenizer 
>>> sentence = """Monticello wasn't designated as UNESCO World Heritage\ 
š Site until 1987.""™" 
>>> tokenizer = TreebankWordTokenizer () 
>>> tokenizer.tokenize (sentence) 

['Monticello', 

'was', 

bs 9 tun aa 

"designated', 

rasty 

'UNESCO', 

'World', 

'Heritage', 

'Site', 

‘until', 

'1987', 

Vd 




















Monticello | was | n’t | designated |as| UNESCO | World| Heritage | Site| until| 1987| . 
和 2-3 ”分 词 后 的 短语 

















3. 缩 略 语 


大 家 可 能 会 疑惑 为 什么 要 把 缩 略语 wasn't 切 分 成 was 和 n't。 对 一 些 应 用 来 说 ,例如 使 
用 句法 树 的 基于 语法 的 NLP 模型 , 将 词 分 成 was 和 not 很 重要 , 这 样 可 以 使 句法 树 分 析 器 能 够 
将 与 已 知 语法 规则 保持 一 致 并 且 可 预测 的 词 条 集 作为 输入 。 存 在 大 量 标准 和 非 标准 的 缩 略 词 处 理 
方法 。 通 过 将 缩 略 语 还 原 为 构成 它 的 各 个 词 ， 只 需要 对 依存 树 分 析 咒 或 者 句法 分 析 器 进行 编程 以 
预见 各 词 的 不 同 拼写 形式 ， 而 不 需要 面 对 所 有 可 能 的 缩 略 语 。 


对 社交 网 络 (如 Twitter 和 Facebook) 的 非 规范 文本 进行 分 词 

NLTK 库 中 包含 一 个 分 词 器 casual tokenize， 该 分 词 器 用 于 处 理 来 自 社 交 网 络 的 非 规范 的 包含 
表情 符号 的 短文 本 。 在 这 些 社交 网 络 中 ， 文 本 的 语法 和 拼写 习惯 千差万别 。 

casual tokenize 函数 可 以 剥离 文本 中 的 用 户 名 ， 也 可 以 减少 词 条 内 的 重复 字符 数 : 









































ao 
































>>> from nltk.tokenize.casual import casual_tokenize 
>>> message = """RT @TJMonticello Best day everrrrrrr at Monticello.\ 
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Awesommmmmmeeeeeeee day :*)™"" 
>>> casual_tokenize (message) 
ART i @arumMtodic serebike)! 


SEE 
‘Awesommmmmmeeeeeeee', 'day', ':*)'] 
>>> casual_tokenize(message, reduce_len=True, strip _handles=True) 
[RMN 
SEA 
'Awesommmeee', 'day', ':*)'] 


2.2.4 将 词汇 表 扩 展 到 n-gram 

我 们 重新 回 到 本 章 开 头 的 那个 “ice cream” 问 题 。 还 记得 我 们 说 过 要 把 “ice” 和 “cream” 
放 在 一 起 不 分 开 : 

I scream, you scream, we all scream for ice cream. 


但 是 ,我 并 不 认识 很 多 为 “cream” 尖 叫 的 人 ,我 也 相信 没有 人 会 为 “ice” 尖 叫 ， 除 非 他 们 
在 冰 上 滑行 和 摔 倒 。 因 此 ， 我 们 需要 一 种 方法 在 词 向 量 中 使 “ice” 和 “cream” 在 一 起 。 




















1. n-gram 概念 


n-gram 是 一 个 最 多 包含 n 个 元 素 的 序列 , 这 些 元 素 从 由 它们 组 成 的 序列 (通常 是 字符 串 ) 中 
提取 而 成 。 一 般 来 说 ，n-gram 的 “元 素 ” 可 以 是 字符 、 音 节 、 词 ， 其 至 是 像 “A”“T”“G”“C” 
等 表示 DNA 序列 的 符号 。 

本 书 中 我 们 只 关注 词 的 n-gram, 而 不 关注 字符 的 n-gram。 因此, 本 书 中 提 到 的 2-gram 指 的 
是 两 个 词 构成 的 对 , 如 “ice cream”。 当 提 到 3-gram HY, 我 们 指 的 是 3 个 词 构成 的 三 元 组 , 如 “beyond 
the pale” “Johann Sebastian Bach” 或 者 “riddle me this”. n-gram 不 一 定 要 求 像 复合 词 一 样 有 特定 
的 含义 ， 而 仅仅 要 求 出 现 频 率 足 够 高 以 引起 词 条 计数 器 的 注意 。 

为 什么 要 使 用 n-gram W? 正如 前 面 所 看 到 的 那样 ， 当 一 个 词 条 序列 向 量化 成 词 袋 向 量 时 ， 
它 丢 失 了 词 序 中 所 包含 的 很 多 含义 。 将 单词 条 的 概念 扩展 到 多 词 条 构成 的 n-gram, NLP 流水 线 
就 可 以 保留 语句 词 序 中 隐 舍 的 很 多 含义 。 例 如 ， 否 定 词 “not” 就 会 和 它 所 属 的 相 邻 词 在 一 起 。 
如 果 分 词 不 考虑 n-gram， 那 么 “not” 就 会 自由 漂移 ， 而 不 会 固定 在 茶几 个 词 周 围 ， 其 否定 的 含 
义 可 能 就 会 与 整个 句子 甚至 整 篇 文档 ,而 不 是 只 与 某 几 个 相 邻 词 关联 。 相 比 于 词 袋 向 量 中 的 1-gram， 
2-gram “was not” 保 留 了 两 个 独立 词 “not” 和 “was” 的 更 多 部 分 的 含义 。 在 流水 线 中 如 果 把 
个 词 和 其 相 邻 词 拥 绑 起 来 ， 就 会 使 词 的 一 部 分 上 下 文 被 保留 。 

















































































































D 语言 及 NLP 技术 常用 于 从 DNA 和 RNA 中 拾取 信息 。 维 基 百 科 “ 核 酸 序列 ”( Nucleic Acid Sequence ) 
的 网 页 上 有 一 个 核酸 符号 表 ， 它 能 够 将 核酸 语言 翻译 成 人 类 可 读 的 语言 。 

D 在 数据 库 课程 或 者 PostgreSQL (postgres ) 的 文档 中 ， 我 们 可 能 已 经 学 到 3-gram 索引 相关 的 知识 。 
但 是 这 里 的 三 元 组 是 字符 的 3-gram。 这 种 索引 能 够 支持 SQL 全 文 搜索 查询 中 的 带 有 “%”“~” 或 者 “*” 
符号 的 语句 ， 能 够 从 大 规模 字符 串 数据 库 快 速 检索 模糊 匹配 的 字符 串 。 






































44 


这 个 


个子 集中 的 n-gram 可 以 用 于 减少 NLP 流水 线 需 要 记录 的 词 条 (n-gram) 数 。 否 则 ，NLP 流水 
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TY 








在 第 3 章 中 ， 我 们 会 介绍 如 何 从 这 些 n-gram 集合 中 识别 那些 相对 而 言 更 具 信 息 量 的 子 集 ， 





线 就 需要 存储 和 维护 其 遇 到 的 所 有 词 序 列 。n-gram 的 优先 级 会 帮助 识别 “Thomas Jefferson” FI 
“ice cream”, MiX} “Thomas Smith” 或 “ice shattered” 则 并 不 特别 关注 。 在 第 4 章 中 ， 我 们 会 把 








词 对 甚至 更 长 的 词 序列 和 它们 的 实际 含义 关联 起 来 ， 而 无 视 每 个 独立 词 本 身 的 意义 。 但 是 现在 ， 
我 们 要 求 分 词 器 能 够 生成 这 些 n-gram 序列 。 


下 面 给 出 对 原来 的 那 条 有 关 Thomas Jefferson 的 句子 进行 2-gram 分 词 的 结果 , 在 给 出 结果 的 


同时 ， 大 家 也 能 了 解 我 们 要 构建 的 分 词 器 的 运行 机 理 。 





>>> tokenize 2grams("Thomas Jefferson began building Monticello at the\ 
age of 26.") 
{'Thomas Jefferson', 
‘Jefferson began', 
"began building', 
"building Monticello', 
"Monticello at', 
‘at the', 
"the age', 
"age of', 
‘of 26'] 


相信 大 家 能 看 到 ， 上 述 2-gram 序列 会 比 原来 的 词 序列 包含 更 多 的 信息 。 由 于 NLP 流水 线 的 


























后 续 步 又 只 能 访问 前 面 分 词 器 生成 的 词 条 ， 因 此 ， 我 们 必须 要 让 后 续 阶 段 知道 “Thomas” 并 不 





+j “Isaiah Thomas” 或 “Thomas & Friends” 这 两 部 动画 片 有 关 。n-gram 是 当 数据 在 流水 线 中 传 
输 时 保留 上 下 文 信 息 的 一 种 方法 。 

















下 面 给 出 的 是 原始 的 1-gram 分 词 器 : 


>>> sentence = """Thomas Jefferson began building Monticello at the\ 
age of 26.""" 

>>> pattern = re.compile(r"([-\s.,;!?])+") 

>>> tokens = pattern.split (sentence) 

>>> tokens = [x for x in tokens if x and x not in '- \t\n.,;!?'] 


>>> tokens 
{'Thomas', 
'Jefferson', 
"began', 
"building', 
"Monticello', 
Vat: 
'the', 
'age', 
NOE; 
raG | 


下 面 是 nltk PAY n-gram Zi) Ae ASE es TB 


>>> from nltk.util import ngrams 
>>> list (ngrams (tokens, 2)) 
{[('Thomas', 'Jefferson'), 








('Jefferson', 'began'), 

('began', 'building'), 

('building', 'Monticello'), 

("Monticello', ‘at'), 

(at. ‘ihe! )4 

('the', 'age'), 

('age', 'of'), 
tof! *26") ] 

>>> list (ngrams (tokens, 3)) 
{('Thomas', 'Jefferson', 'be 
('Jefferson', 'began', 'bui 
('began', 'building', 'Mont 
('building', 'Monticello', 
('Monticello', ‘at', 'the') 
('at', Mher, ‘age'), 
('the', 'age', 'of'), 
('age', 'of', '26')] 
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gan'), 
lding'), 
icello'), 
ratty 


r 


提示 为 了 提高 内 存 效率 ，NLTK 库 的 ngrams 函数 返回 一 个 Python 生成 器 (generator ), Python 


生成 器 是 一 种 智能 函数 ， 其 行为 类 


似 于 迭代 器 (iterator )， 一 次 只 生成 一 个 元 素 ， 而 不 是 一 次 返回 





整个 序列 。 这 在 for 循环 中 非常 有 用 ， 在 for 循环 中 ， 生 成 器 将 加 载 每 个 单独 项 ， 而 不 是 将 整个 项 
列表 加 载 到 内 存 中 。 但 是 ,如果 想 一 次 查看 所 有 返回 的 n-gram， 那么 请 像 前 面 的 示例 那样 将 生成 器 转 
换 为 列表 。 请 记 住 ， 应 该 只 在 交互 式 会 话 而 不 是 在 长 时 间 运 行 的 大 型 文本 分 词 任务 中 执行 上 述 操作 。 


在 上 面 的 代码 中 ,n-gram 以 一 个 个 元 组 ( tuple ) 的 方式 来 提供 , 但 是 如 果 大 家 希望 流水 线 中 

















的 所 有 词 条 都 是 字符 串 的 话 , 那么 也 可 以 很 容易 地 将 这 些 元 组 连接 在 一 起 。 这 将 允许 流水 线 的 后 








续 阶段 预期 输入 的 数据 类 型 保持 一 致 ， 即 都 是 字符 串 序列 ， 


>>> two grams = list (ngrams ( 


tokens, 2)) 


>>> [" ".join(x) for x in two_grams] 


{['Thomas Jefferson', 

‘Jefferson began', 
"began building', 
"building Monticello', 
"Monticello at', 
‘at the', 
"the age', 
"age of', 
POE 26*] 


看 到 这 里 , 大 家 可 能 会 有 一 个 疑问 。 看 一 下 上 面 的 那个 例子 , 可 以 想象 词 条 “Thomas Jefferson” 
会 在 多 篇 文档 中 出 现 。 而 “0f 26” 和 “Jefferson began” 这 些 2-gram 可 能 出 现 得 非常 少 。 如 果 词 条 
或 者 n-gram 出 现 得 特别 少 ， 它 们 就 不 会 承载 太 多 其 他 词 的 关联 信息 ， 而 这 些 关联 信息 可 以 用 于 帮助 


识别 文档 的 主题 ， 这 些 主题 可 以 将 多 











篇 文档 或 者 多 个 文档 类 连接 起 来 。 因 此 ， 军 见 的 n-gram 对 分 类 


问题 作用 不 显著 。 我 们 可 以 想象 ， 大 部 分 2-gram 都 十 分 罕见 ， 更 不 用 说 3-gram 和 4-gram 了 。 
由 于 词 的 组 合 结果 要 比 独立 的 词 多 得 多 ， 因 此 词汇 表 的 大 小 会 以 指数 方式 接近 语料库 中 





所 有 文档 中 的 n-gram 数 。 如 果 特 和 





F 向 量 的 维度 超过 所 有 文档 的 总 长 度 , 特征 提取 过 程 就 不 会 
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达到 预期 的 目的 。 事 实 上 机 器 学 习 模 型 和 向 量 之 间 的 过 拟 合 几乎 不 可 能 避免 ， 这 是 由 于 向 量 
的 维 数 多 于 语料库 中 的 文档 数 而 造成 的 。 在 第 3 章 中 ， 我 们 会 使 用 文档 频率 统计 数据 来 识别 
那些 罕见 的 n-gram, 这 些 n-gram 对 机 器 学 习 来 说 用 处 不 大 。 通常 来 说 , 出 现 次 数 过 少 ( 例如 ， 
出 现 的 文档 篇 数 不 多 于 3 ) 的 n-gram 会 被 过 滤 掉 。 这 种 场景 可 以 参考 第 1 章 硬 币 分 拣 机 中 过 
渡 罕 见 词 条 的 过 滤器 。 

接 下 来 考虑 一 个 相反 的 问题 。 考 虑 上 一 个 短语 中 的 2-gram “at the" 。 这 个 词组 合 可 能 并 不 罕 
见 。 实 际 上 ,， 它 可 能 十 分 常见 ， 在 大 部 分 文档 中 都 会 出 现 , 在 这 种 情况 下 无 法 通过 它 区 分 其 在 不 
同文 档 中 的 意义 ,并 且 它 也 几乎 没有 什么 预测 能 力 。 就 像 词 或 者 其 他 词 条 一 样 ， 出 现 过 于 频繁 的 
n-gram 通常 会 被 过 滤 掉 。 例 如 ， 如 果 某 个 词 条 或 n-gram 在 语料库 中 的 超过 25% 的 文档 中 出 现 ， 
那么 它 通常 会 被 忽略 。 这 等 价 于 第 1 章 硬币 分 拣 机 中 的 停 用 词 过 滤器 。 这 些 过 滤器 对 单个 词 条 和 
n-gram 都 同样 有 用 。 实 际 上 ， 它 们 的 用 处 甚至 会 更 大 。 
2. 停 用 词 

在 任何 一 种 语言 中 , 停 用 词 (stop word ) 指 的 是 那些 出 现 频 率 非常 高 的 常见 词 , 但 是 对 短语 
的 含义 而 言 ， 这 些 词 承 载 的 实质 性 信息 内 容 却 少 得 多 。 一 些 常见 的 停 用 词 的 例子 如 下 : 

E a,an 


E the, this 


E and, or 





















































E of, on 

从 传统 上 说 , NLP 流水 线 都 会 剔除 停 用 词 ， 以 便 减 小 从 文本 中 提取 信息 时 的 计算 压力 。 虽 然 
词 本 身 可 能 承载 很 少 的 信息 ， 但 是 停 用 词 可 以 提供 n-gram 中 的 重要 关系 信息 。 例 如 ， 下 面 的 两 
个 例子 : 

E Mark reported to the CEO 











E Suzanne reported as the CEO to the board 

在 NLP 流水 线 中 ， 我 们 可 能 会 产生 reported to the CEO Ñ reported as the CEO 
这 样 的 4-gram。 如 果 从 这 些 4-gram 中 剔除 了 停 用 词 ， 那 么 上 面 两 个 例子 都 会 变 成 “reported CEO”, 
这 样 就 会 丢失 其 中 的 上 下 属 关系 信息 。 第 一 个 例子 中 ，Mark 可 能 是 CEO 的 一 个 助理 ， 而 第 二 
个 例子 中 ，Suzanne 则 是 向 董事 会 汇报 的 CEO。 不 幸 的 是 ， 保 留 流水 线 中 的 停 用 词 会 带 来 另 
个 问题 : 它 会 增加 所 需 的 n-gram 的 长 度 ( 即 却 )， 长 度 增加 是 为 了 保住 上 述 由 原本 这 无 意义 的 
停 用 词 所 产生 的 关联 关系 "。 基 于 这 个 原因 ， 如 果 要 避免 上 述 例子 中 的 歧义 ,我 们 至 少 要 保留 
4-gram. 

如 何 设计 停 用 词 过 滤器 依赖 具体 的 应 用 。 词 汇 表 的 大 小 会 决定 NLP 流水 线 所 有 后 续 步 骤 的 计 
算 复杂 性 和 内 存 开销 。 但 是 ， 停 用 词 只 占 词汇 表 的 很 少 一 部 分 。 一 个 典型 的 停 用 词 表 大 概 只 包含 


































































































完整 的 多 种 语言 的 停 用 词 表 ,参考 NLTK 语料库 。 
就 是 说 ， 为 了 保住 上 述 例子 中 的 关联 关系 需要 保留 更 长 的 n 元。 一 一 译 者 注 
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100 个 左右 高 频 的 非 重 要 词 。 但 是 ， 要 记录 大 规模 推 文 、 博 客 和 新 闻 中 出 现 的 95% 的 词 ， 需 要 大 
HE 20 000 个 词 的 词汇 表 ， 而 这 只 考虑 了 1-gram 或 者 说 单个 词 的 词 条 。 要 容纳 某 个 大 规模 英文 语 
料 库 中 的 95% 的 2-gram， 需 要 设计 的 2-gram 词汇 表 通 常会 包括 超过 100 万 个 不 同 的 2-gram 词 条 。 

大 家 可 能 会 对 词汇 表 大 小 导致 所 需 的 任何 训练 集 的 大 小 表示 担心 , 训练 集 要 足够 大 以 避免 对 
任何 具体 词 或 者 词 的 组 合 造成 过 拟 合 。 大 家 也 知道 ， 训 练 集 的 大 小 会 决定 对 它 的 处 理 量 。 但 是 ， 
从 20 000 个 词 中 剔除 100 个 停 用 词 不 会 显著 加 快 上 述 处 理 过 程 ， 对 2-gram 词汇 表 而 言 ， 通 过 吻 
除 停 用 词 而 获得 的 好 处 无 足 轻 重 。 此 外 ， 如 果 不 对 使 用 停 用 词 的 2-gram 频率 进行 检查 就 武断 地 
剔除 这 些 停 用 词 的 话 ， 可 能 会 丢失 很 多 信息 。 例 如 ,我 们 可 能 会 失去 “The Shining” 这 个 独立 的 
标题 ， 而 将 有 关 这 部 充满 暴力 并 令 人 不 安 的 电影 的 文本 和 其 他 提 到 “Shining Light” 或 “shoe 
shining” 的 文档 一 视 同 仁 。 

因此 , 如 果 我 们 有 足够 的 内 存 和 处 理 带宽 来 运行 大 规模 词汇 表 下 NLP 流水 线 中 的 所 有 步 又 ， 
那么 可 能 不 必 为 在 这 里 或 那里 忽略 几 个 不 重要 的 词 而 忧虑 不 已 。 如 果 担 心 大 规模 词汇 表 与 小 规模 
训练 集 之 间 发 生 过 拟 合 的 话 , 那么 有 比 忽略 停 用 词 更 好 的 方法 来 选择 词汇 表 或 者 降 维 。 在 词汇 表 
中 保留 停 用 词 能 够 允许 文档 频率 过 滤器 ( 将 在 第 3 章 讨论 ) 更 精确 地 识别 或 者 忽略 那些 在 具体 领 
域 中 包含 最 少 信 息 内 容 的 词 或 n-gram。 

如 果 确 实 想 在 分 词 过 程 中 粗暴 地 去 掉 停 用 词 的 话 , 使 用 Python 中 的 列表 解析 式 ( list comprehension ) 
就 足够 了 。 下 面 给 出 了 一 些 停 用 词 以 及 在 词 条 列表 中 迭代 以 剔除 它们 的 代码 片段 : 




















>>> stop_words = ['a', tan"; 'the', 'on', 'of', 'off', 'this', tis] 
>>> tokens = ['the', 'house', 'is', 'on', 'fire'] 
>>> tokens_without_stopwords = [x for x in tokens if x not in stop_words] 


>>> print (tokens _without_stopwords) 
['house', 'fire'] 


我 们 会 看 到 , 某 些 词 会 比 其 他 词 承载 更 多 的 意义 。 在 有 些 句 子 中 可 以 去 掉 超 过 一 半 的 词 但 是 
句子 的 意义 并 不 会 受到 显著 影响 。 即 使 没有 冠 词 、 介 词 甚至 动词 “to be” 的 各 种 形式 ， 读 者 往往 
也 能 够 抓 住 文章 的 要 点 。 设 想 一 个 人 正在 使 用 手语 或 者 需要 匆忙 给 自己 写 张 便条 , 那么 哪些 词 通 
常会 被 略 过 ? 这 就 是 选择 停 用 词 的 方法 。 

为 了 得 到 一 个 完整 的 “标准 ” 停 用 词 表 ， 可 以 参考 NLTK，NLTK 可 能 提供 了 使 用 最 普遍 的 
停 用 词 表 ， 具 体 可 以 参考 代码 清单 2-8。 


















































代码 清单 2-8 NLTK 停 用 词 表 





>>> import nltk 

>>> nltk.download('stopwords') 

>>> stop_words = nltk.corpus.stopwords.words('english') 
>>> len(stop_words) 


>>> stop_words[:7] 
['i', 'me', 'my', 'myself', 'we', 'our', ‘'ours'] 





D 参考 标题 为 “Analysis of text data and Natural Language Processing” 的 网 页 。 
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>>> [sw for sw in stopwords if len(sw) == 1] 
[eee ‘al, lig); Erg Es ‘ma, Vos 4 hy! 





以 第 一 人 称 书写 的 文档 相当 枯燥 , 更 重要 的 是 , 其 内 容 信息 含量 很 低 。 NLTK 包 中 将 代词 (不 
止 是 第 一 人 称 ) 纳入 其 停 用 词 表 中 。 此 外 ， 上 述 单个 字母 的 停 用 词 看 上 去 更 古怪 , 但 是 如 果 多 次 
使 用 NLTK 分 词 顺和 Porter 词 干 还 原 工具 的 话 , 这 些 停 用 词 是 讲 得 通 的 。 当 使 用 NLTK 分 词 器 和 
词 干 还 原 工具 对 缩 略 语 进 行 分 割 和 词 干 还 原 时 ， 这 些 单字 母 的 词 条 就 会 经 常 出 现 。 


警告 sklearn 使 用 的 英文 停 用 词 表 和 NLTK 使 用 的 大 不 一 样 。 在 写作 本 书 之 时 ，sklearn 有 318 
个 停 用 词 。 而 NLTK 会 周期 性 地 更 新 其 语料库 ， 包 括 停 用 词 表 。 当 使 用 Python 3.6 的 nltk 的 3.2.5 
版 本 重新 运行 代码 清单 2-8 中 的 例子 时 ， 我 们 得 到 的 是 179 个 停 用 词 而 不 是 之 前 的 153 个 。 

这 也 是 不 过 滤 停 用 词 的 另 一 个 原因 。 如 果 过 滤 了 停 用 词 ， 其 他 人 可 能 无 法 重 现 你 的 结果 。 


根据 想 忽 略 的 自然 语言 信息 的 多 少 , 可 以 为 流水 线 使 用 多 个 停 用 词 表 的 并 集 或 交集 。 代 码 清 
单 2-9 中 给 出 了 sklearn (版 本 0.19.2) 和 nltk (版 本 3.2.5) 之 间 停 用 词 的 比较 情况 。 

















代码 清单 2-9 NLTK 停 用 词 表 





>>> from sklearn.feature_extraction.text import)\ 
ENGLISH_STOP_WORDS as sklearn_stop_words 
>>> len(sklearn_stop_words) 


















































318 
>>> len(stop_words) 
179 
>>> len(stop_words.union(sklearn_stop_words) ) NLTK 停 用 词 表 中 有 60 个 词 不 包含 在 更 大 
378 的 sklearn 停 用 词 表 中 
>>> len(stop_words.intersection(sklearn_stop_words) ) 
E E NLTK 和 sklearn 共同 的 停 用 词 不 到 总 数 的 
1/3 (在 378 个 停 用 词 中 有 119 个 相同 ) 

















2.2.5 词汇 表 归 一 化 


到 现在 为 止 , 我 们 已 经 看 到 了 词汇 表 大 小 对 NLP 流水 线性 能 的 重要 影响 。 另 一 种 减少 词汇 
表 大 小 的 方法 是 将 词汇 表 归 一 化 以 便 意义 相似 的 词 条 归并 成 单个 归 一 化 的 形式 。 这 样 做 一 方面 
可 以 减少 需要 在 词汇 表 中 保留 的 词 条 数 , 男 一 方面 也 会 提高 语料库 中 意义 相似 但 是 拼写 不 同 的 
词 条 或 n-gram 之 间 的 语义 关联 。 正 如 前 面 提 到 的 那样 ， 减 小 词汇 表 的 规模 可 以 降低 过 拟 合 的 
概率 。 


1. 大 小 写 转换 


当 两 个 单词 只 有 大 小 写 形式 不 同时 ， 大 小 写 转换 会 用 来 把 不 同 的 大 小 写 形式 进行 统一 处 理 。 
那么 , 为 什么 需要 使 用 大 小 写 转换 呢 ?” 因 为 当 单词 出 现在 句 首 或 者 为 了 表示 强调 均 采 用 大 写 形式 
来 表示 时 , 某 个 单词 的 大 小 写 变 得 不 太 统 一 。 将 这 种 不 统一 的 大 小 写 形式 统一 化 则 称 为 大 小 写 归 
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一 化 ( case normalization )， 或 者 采用 一 个 更 常用 的 称呼 ， 称 为 大 小 写 转换 (case folding )。 将 单 
词 或 字符 的 大 小 写 统一 是 一 种 减 小 词汇 表 规模 的 方法 ， 可 以 推广 到 NLP 的 流水 线 。 它 有 助 于 将 
意义 相同 ( 同样 的 拼写 方式 ) 的 单词 统一 化 为 单个 词 条 。 

但 是 ,单词 的 大 写 有 时 候 也 包含 了 一 些 特定 的 含义 ,例如 “doctor” 和 “Doctor” 往 往 具 有 不 
同 的 含义 。 大 写 单词 往往 也 表示 其 是 一 个 专 有 名 词 ， 即 某 个 人 名 、 地 名 或 者 事物 的 名 称 。 如 果 命 名 
实体 识别 对 NLP 流水 线 而 言 很 重要 的 话 ， 我 们 就 希望 能 够 识别 出 上 面 那 些 不 同 于 其 他 单词 的 专 有 
Bin], 然而 ,如果 词 条 不 进行 大 小 写 归 一 化 处 理 , 那么 词汇 表 的 规模 就 大 约 是 原来 的 两 倍 , 需要 消 
耗 的 内 存 和 处 理 时 间 也 大 约 是 原来 的 两 倍 ,这 样 可 能 会 增加 需要 标注 的 训练 数据 的 数量 以 保证 机 器 
学 习 流 水 线 收敛 到 精确 的 通用 解 。 在 机 器 学 习 流 水 线 中 , 标注 的 用 于 训练 的 数据 集 必须 能 够 代表 模 
型 需要 处 理 的 所 有 可 能 的 特征 向 量 所 处 的 空间 , 包括 能 够 处 理 大 小 写 的 变化 情况 。 对 于 100 000 维 
的 词 袋 向 量 , 通常 必须 要 有 100 000 条 甚至 更 多 的 标注 数据 ,才能 训练 出 一 个 不 太 会 发 生 过 拟 合 的 
有 监督 机 器 学 习 流 水 线 。 在 某 些 情况 下 ， 将 词汇 表 规 模 减 小 一 半 比 丢弃 部 分 信息 更 值 当 。 

在 Python 中 ， 利 用 列表 解析 式 能 够 很 方便 地 对 词 条 进行 大 小 写 归 一 化 处 理 : 

>>> tokens = ['House', 'Visitor', 'Center'] 

>>> normalized tokens = [x.lower() for x in tokens] 


>>> print (normalized_tokens) 
{'house', 'visitor', 'center'] 


如 果 确 信 要 对 整 篇 文档 进行 大 小 写 归 一 化 处 理 , 可 以 在 分 词 之 前 对 文本 字符 串 使 用 Lower () 
函数 进行 处 理 。 但 是 如 果 这 样 的 话 ， 可 能 会 干扰 一 些 更 高 级 的 分 词 器 ， 这 些 分 词 器 可 以 将 驼峰 式 大 
小 写 (camel case ) 的 单词 进行 分 割 ， 如 “WordPerfect”“FedEx” 或 “stringVariableName” 等 。 
也 许 我 们 希望 WordPerfect 只 有 其 自己 唯一 的 表示 形式 ,或 者 也 许 希 望 回 忆 过 去 那个 更 完美 的 字 
处 理 时 代 。 到 底 何 时 以 及 如 何 应 用 大 小 写 转换 ， 取 决 于 我 们 自己 。 

通过 大 小 写 归 一 化 , 我 们 试图 在 语法 规则 和 词 条 在 句 中 的 位 置 影响 其 大 小 写 之 前 , 将 这 些 词 
条 还 原 成 其 归 一 化 形式 。 一 种 最 简单 也 最 常见 的 文本 字符 串 大 小 写 归 一 化 方法 是 ， 利 用 诸如 
Python 内 置 的 str. lower () 函数 将 所 有 字符 都 转 成 小 写 形式 。 不 幸 的 是 ， 这 种 做 法 除了 会 将 
我 们 希望 的 那些 意义 不 大 的 句 首 大 写字 母 进行 归 一 化 ， 也 会 将 很 多 有 意义 的 大 小 写 形式 给 归 一 化 
掉 。 一 个 更 好 的 大 小 写 归 一 化 方法 是 只 将 句 首 大 写字 母 转 成 小 写 ， 其 他 单词 仍然 保持 原 有 形式 。 

只 将 句 首 字母 转 成 小 写 可 以 保留 句子 当中 专 有 名 词 的 含义 ， 如 Joe 和 Smith 在 句子 “Joe 
Smith” 中 的 情况 。 这 种 做 法 能 够 正确 地 将 本 该 在 一 起 的 词 分 到 一 组 ， 这 是 因为 它们 不 是 专 有 名 
字 而 只 在 句 首 时 才 首 字母 大 写 。 这 种 做 法 可 以 在 分 词 时 将 “Joe” 和 “coffee”(“joe”) “区 分 开 来 。 

















































































































D 详 见 维基 百科 上 标题 为 “Camel case case” 的 网 页 。 

© 假设 这 里 是 Python 3 中 的 str.low()o Æ Python 2 H, Fi (FRE ) 可 以 只 需要 通过 将 所 有 的 ASCH 
数字 空间 的 alpha 字符 进行 转换 即 可 ， 但 是 在 Python 3 中 ，str.1lower 对 字符 进行 合理 的 翻译 以 便 一 
方面 能 够 处 理 装 饰 后 的 英语 字符 ( 如 resumé 中 e 上 面 的 重音 符号 )， 另 一 方面 也 能 够 处 理 非 英语 的 一 些 
特殊 的 大 小 写 情况 。 


@) 3-gram“cup ofjoe” 是 “cup of coffee” 的 一 种 倡 语 。 
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这 种 做 法 也 能 防止 一 句 话 当 中 “铁匠 ”含义 的 “smith”( 如 人 句子 “A word smith had a cup of joe.” ) 
和 专 有 名 词 “Smith” 混 在 一 起 。 即 使 采用 这 种 小 心 谨慎 的 大 小 写 处 理 方法 ， 即 只 将 句 首 的 单词 
转换 成 小 写 形式 ， 也 会 遇 到 某 些 情况 下 专 有 名 词 出 现在 句 首 而 导致 的 错误 。 采 用 上 述 做 法 ,Joe 
Smith, the word smith, with a cup of joe.” 和 “Smith the word with a cup of joe, Joe Smith.” 这 两 个 句 
子 会 产生 不 同 的 词 条 集合 。 此 外 ， 对 不 存在 大 小 写 概念 的 语言 来 说 ， 大 小 写 归 一 化 没有 任何 作用 。 

为 了 避免 上 述 例子 中 可 能 的 信息 损失 ， 很 多 NLP 流水 线 根本 不 进行 大 小 写 归 一 化 处 理 。 在 
很 多 应 用 中 , 将 词汇 表 规 模 减 小 一 半 带 来 的 效率 提升 ( 存储 和 处 理 ) 会 大 于 专 有 名 词 的 信息 损失 。 
但 是 ， 即 使 不 进行 大 小 写 归 一 化 处 理 ， 有 些 信息 也 会 损失 。 如 果 不 将 句 首 的 “The” 识 别 为 停 用 
词 , 对 有 些 应 用 来 说 可 能 会 带 来 问题 。 拥 有 真正 完善 手段 的 流水 线 会 在 选择 性 地 归 一 化 那些 出 现 
在 句 首 但 明显 不 是 专 有 名 词 的 词 之 前 , 先 检测 出 专 有 名 词 。 我 们 可 以 使 用 任何 对 应 用 有 意义 的 大 
小 写 处 理 方法 。 如 果 语 料 库 中 的 “Smithys” 和 “word smiths” 不 太 多 ,我 们 也 并 不 关心 它们 是 否 
要 归 一 化 成 一 个 词 条 , 那么 就 可 以 将 所 有 文本 都 转 成 小 写 形 式 。 最 好 的 方法 就 是 尝试 多 种 不 同 做 
法 ， 看 看 到 底 哪 一 种 做 法 在 NLP 项 目 中 获得 了 最 高 性 能 。 

为 了 让 模型 能 够 处 理 那 些 出 现 古 怪 大 小 写 形式 的 文本 , 大 小 写 归 一 化 可 以 减少 对 机 器 学 习 流 
水 线 的 过 拟 合 情 况 。 大 小 写 归 一 化 对 搜索 引擎 来 说 尤其 有 用 。 对 搜索 而 言 ， 归 一 化 能 够 增加 对 特 
定 查询 找到 的 匹配 数 ， 这 也 称 为 搜索 引擎 (或 其 他 任何 分 类 模型 ) 的 召回 率 。 

对 于 一 个 没有 进行 大 小 写 归 一 化 的 搜索 引擎 ， 如 果 搜 索 “Age” 会 得 到 和 搜索 “age” 不 一 样 
的 文档 集合 。“Age” 可 能 出 现在 诸如 “New Age” BK “Age of Reason” 的 短语 中 。 比 较 而 言 ,，“age” 
更 可 能 出 现在 像 前 面 有 关 “Thomas Jefferson” 的 句子 中 的 “at the age of ”这 样 的 短语 中 。 通 过 
将 搜索 索引 中 的 词汇 表 归 一 化 〈 同时 查询 也 需要 进行 同样 的 归 一 化 处 理 )， 无 论 输入 查询 的 大 小 
写 如 何 ， 都 可 以 保证 两 类 有 关 “age” 的 文档 均 被 返回 。 

但 是 ， 上 述 召 回 率 的 额外 升 高 会 造成 正确 率 降低 ， 此 时 对 于 返回 的 很 多 文档 ， 用户 并 不 感 兴 
趣 。 基 于 这 个 原因 ， 现 代 搜 索引 擎 允许 用 户 关闭 查询 的 大 小 写 归 一 化 选项 ,通常 的 做 法 是 将 需要 
精确 匹配 的 词 用 双 引 号 引起 来 。 如 果 要 构建 这 样 的 搜索 引 警 流水线， 以 便 处 理 上 述 两 种 查询 ， 就 
需要 为 文档 建立 两 个 索引 : 一 个 索引 将 n-gram 进行 大 小 写 归 一 化 处 理 ， 而 另 一 个 则 采用 原始 的 
大 小 写 形式 。 


2. 词 干 还 原 


另 一 种 常用 的 词汇 表 归 一 化 技术 是 消除 词 的 复数 形式 所 有 格 的 词尾 甚至 不 同 的 动词 形式 等 
带 来 的 意义 上 的 微小 差别 。 这 种 识别 词 的 不 同形 式 背 后 的 公共 词 干 的 归 一 化 方法 称 为 词 干 还 原 
(stemming )。 例 如 , housing 和 houses 的 公共 词 干 是 house。 词 干 还 原 过 程 会 去 掉 词 的 后 级 ， 
从 而 试图 将 具有 相似 意义 的 词 归 并 到 其 公共 词 干 。 不 一 定 要 求 词 干 必须 是 一 个 拼写 正确 的 词 , 而 
只 需要 是 一 个 能 够 代表 词 的 多 种 可 能 拼写 形式 的 词 条 或 者 标签 ( label )。 
人 们 很 容易 知道 “house” 和 “houses” 分 别 是 同一 名 词 的 单数 和 复数 形式 。 但 是 ， 对 机 器 而 
























































































































































D 参考 附录 DD 来 学 习 更 多 有 关 正 确 率 (presicion ) 和 召回 率 (recall) MAR. 
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A, 需要 某 种 方式 来 提供 这 个 信息 。 词 干 还 原 的 主要 好 处 之 一 是 , 机 器 中 的 软件 或 者 语言 模型 所 
需 记 录 其 意义 的 词 的 个 数 得 以 压缩 。 它 在 限制 信息 或 意义 损失 的 同时 , 会 尽 可 能 减 小 词汇 表 的 规模 ， 
这 在 机 器 学 习 中 称 为 降 维 。 它 能 够 帮助 泛 化 语言 模型 ， 使 模型 能 够 在 属于 同一 词 干 的 词 上 表现 相同 。 
因此 ,只 要 我 们 的 应 用 中 不 需要 机 器 区 分 house 和 houses, 词 干 还 原 就 可 以 将 程序 或 数据 集 的 规模 减 
小 一 半 甚 至 更 多 ， 减 小 的 程度 依赖 所 选 词 干 还 原 工 具 的 激进 程度 。 

词 干 还 原 对 关键 词 搜索 或 信息 检索 十 分 重要 。 在 搜索 “developing houses in Portland” 时 ， 返 回 
的 网 页 或 者 文档 可 以 同时 包含 “house”“houses” 其 至 “housing”, 因为 这 些 词 都 会 还 原 成 词 干 “hous”。 
同样 ， 返 回 的 页 面 除了 可 以 包含 “developing”， 还 可 以 包含 “developer” 和 “development”， 因 为 它 
们 都 可 以 还 原 成 词 干 “develop”。 正 如 我 们 所 看 到 的 那样 ， 上 述 做 法 相当 于 拓宽 了 搜索 结果 ， 这 样 可 
以 确保 丢失 相关 文档 或 者 网 页 的 可 能 性 减 小 。 这 种 拓宽 搜索 结果 的 方法 会 极 大 地 提高 搜索 的 召回 率 
得 分 ， 召 回 率 是 度量 搜索 引擎 返回 所 有 相关 文档 的 程度 的 一 个 指标 。 

然而 , 词 干 还 原 可 能 会 大 幅度 降低 搜索 引擎 的 正确 率 得 分 , 这 是 因为 在 返回 相关 文档 的 同时 
可 能 返回 了 大 量 不 相关 文档 。 在 一 些 应 用 当中 ， 假 阳 率 (false positive， 返 回 的 结果 中 不 相关 的 
文档 比率 ) 会 是 一 个 问题 。 因 此 ， 大 部 分 搜索 引擎 可 以 通过 对 词 或 短语 加 双 引 号 的 方式 关闭 词 干 
还 原 甚 至 大 小 写 转换 这 些 选 项 。 加 双 引 号 意味 着 返回 页 面 必 须 包 含 短语 的 精确 拼写 形式 ， 例 如 ， 
输入 查询 “Portland Housing Development software”， 返 回 的 页 面 就 会 和 查询 “a Portland software 
developer’s house” 所 返回 的 页 面 不 属于 一 类 。 另外 , 有 时 候 需要 搜索 “Dr House’s calls” 而 非 “dr 
house call”， 昌 然后 者 可 能 是 采用 词 干 还 原 工具 处 理 前 者 后 得 到 的 有 效 查询 。 
下 面 给 出 一 个 使 用 纯 Python 实现 的 词 干 还 原 的 简单 示例 ， 该 示例 可 以 处 理 词尾 的 s: 


>>> def stem(phrase): 


Ill 




























































































return ' '.join([re.findall('*(.*ss|.*?) (s)?$', 
ssh word) [0] [0].strip("'") for word in phrase.lower ().split()] 
>>> stem('houses') 


'house' 
>>> stem("Doctor House's calls") 
'doctor house call' 


上 面 的 词 干 还 原 函 数 使 用 一 个 短 的 正则 表达 式 来 遵守 如 下 的 一 些 简单 规则 : 

E ”如果 词 结尾 不 止 一 个 s， 那 么 词 干 就 是 词 本 身 ， 后 缀 是 空 字符 串 ; 

E 如 果 词 结尾 只 有 一 个 s， 那 么 词 干 是 去 掉 s 后 的 词 ， 后 级 是 字符 s; 

E 如 果 词 结尾 不 是 s， 那 么 词 干 就 是 词 本 身 ， 不 返回 任何 后 绥 。 

上 面 的 strip 方法 能 够 确保 一 些 词 的 所 有 格 和 复数 形式 能 够 被 词 干 还 原 处 理 。 

上 述 函 数 可 以 处 理 常 规 情况 ， 但 是 无 法 处 理 更 复杂 的 情况 。 例 如 ， 上 述 规则 遇 到 dishes 
或 者 heroes 就 会 失效 。 针 对 这 些 更 复杂 的 情况 ，NLTK 包 提 供 了 其 他 词 干 还 原 工 具 。 

上 述 函 数 同样 不 能 处 理 查 询 “Portland Housing” 中 的 “housing”。 

两 种 最 流行 的 词 干 还 原 工 具 分 别 是 Porter 和 Snowball. Porter 词 干 还 原 工具 因 计算 机 科学 家 




























































































D 如 果 忘 记 了 如 何 求 召 回 率 ， 可 以 参考 附录 D 或 者 访问 有 关 召 回 率 的 维基 百科 网 页 。 
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Martin Porter 而 得 名 。Porter 本 人 也 主导 了 对 Porter 词 干 还 原 工具 进行 改进 而 得 到 Snowball” 的 过 
程 。 由 于 词 干 还 原 对 信息 检索 ( 关键 词 检索 ) 具有 重要 价值 ，Porter 在 他 漫长 的 职业 生涯 的 大 部 
分 时 间 里 都 致力 于 记录 和 提高 词 干 还 原 工具 的 效果 ,这些 词 干 还 原 工具 使 用 了 比 单个 正则 表达 式 
更 复杂 的 规则 ， 这 样 就 能 够 处 理 更 复杂 的 英语 拼写 和 词尾 情况 。 


>>> from nltk.stem.porter import PorterStemmer 

>>> stemmer = PorterStemmer () 

>>> ' '.J4o0in([stemmer.stem(w).strip("'") for w in 
"dish washer's washed dishes".split()]) 

"dish washer wash dish!' 


需要 注意 的 是 ， 像 上 面 的 正则 表达 式 词 干 还 原 工 具 一 样 ，Porter 保留 了 词尾 的 撤 号 (')， 这 
样 就 能 把 所 有 格 形式 和 非 所 有 格 形式 的 词 区 分 开 来 。 所 有 格 名 词 往往 都 是 专 有 和 名词 ,因此 这 个 特 
性 对 于 那些 要 将 人 名 和 其 他 名 词 区 分 开 来 的 应 用 来 说 十 分 重要 。 


关于 Porter 词 干 还 原 工 具 的 更 多 信息 
Julia Menchavez 将 Porter 的 原始 版 本 转换 成 纯 Python 版 本 并 且 共 享 了 出 来 。 如 果 读 者 有 兴趣 开发 自 
的 词 干 还 原 工 具 ， 可 以 考虑 这 300 行 转换 代码 ， 以 及 Porte 放 入 其 中 的 经 受 了 长 期 考验 的 精致 规则 。 
Porter 词 干 还 原 算法 有 8 步 : 1a、1pb、1c、2、3、4、5a 和 5b。 其 中 1a 有 点 儿 像 处 理 词 尾 s 的 正 
URAR’: 


def stepla (self, word): 
if word.endswith ('sses'): 


word = selft-replace(word, "sses';, Vas) 、 2z n 
elif word.endswith('ies'): 这 与 str.replace() 完 全 不 


word = self.replace(word, 'ies', 'i') E, Julia HY self.replace() H 
elif word.endswith('ss'): 修改 词尾 部 分 

word = self.replace(word, 'ss', 'ss") 
elif word.endswith('s'): 

word = self.replace(word, 's', '') 
return word 


则 下 的 7 步 要 复杂 得 多 ， 因 为 它们 必须 处 理 下 面 的 复杂 的 英语 拼写 规则 : 
Step 1a 一 词尾 为 “S” 和 “es ”; 

Step 1b 一 词尾 为 “ed” “ing” #0 “at”; 

Step 1c 一 词尾 为 “y”; 

Step 2 一 名 词性 词尾 ， 如 “ational”"tional”“ence” 和 “able”; 

， 如 "icate”“ful” 和 “alize”; 

Step 4 一 形容 词性 词尾 ， 如 “ive” “ible” “ent” #0 “ism”; 

Step 5a 一 难处 理 的 词尾 “e”， 仍然 持续 开发 中 ; 

Step 5b 一 词尾 的 双 辅 音 ， 词 干 会 以 单个 “|” 结 尾 。 



































































































































































































































% 


























fou 


Step 372 Aid MHA 

























































































a 这 是 Julia Menchavez 实现 的 porter-stemmer 的 一 个 简化 版 本 。 





D 参考 M. 下 . Porter 的 文章 “An algorithm for suffix stripping”( 1993 )。 
© 详 见 标题 为 “Snowball: A language for stemming algorithms” 的 网 页 。 
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3. 词 形 归并 


如 果 知 道 词 义 之 间 可 以 互相 关联 ， 那 么 可 能 就 能 够 将 一 些 词 关联 起 来 ， 即 使 它们 的 拼写 完全 不 
一 样 。 这 种 更 粗放 的 将 词 归 一 化 成 语义 词根 即 词 元 (lemma ) 的 方式 称 为 词 形 归 并 (lemmatization )。 

在 第 12 章 中 ,我 们 会 看 到 如 何 通过 词 形 归并 来 降低 回答 聊天 机 器 人 语句 时 所 需 逻 辑 的 复杂 性 。 
对 于 任何 一 个 NLP 流水 线 ， 如 果 想 要 对 相同 语义 词根 的 不 同 拼写 形式 都 做 出 统一 回复 的 话 ， 那 么 
词 形 归并 工具 就 很 有 用 , 它 会 减少 必须 要 回复 的 词 的 数目 , 即 语言 模型 的 维度 。 利用 词 形 归并 工具 ， 
可 以 让 模型 更 一 般 化 , 当然 也 可 能 带 来 模型 精确 率 的 降低 , 因为 它 会 对 同一 词根 的 不 同 拼 写 形 式 一 
视 同仁 。 例 如 ， 即 使 它们 的 意义 不 同 ， 在 NLP 流水 线 中 使 用 词 形 归并 的 情况 下 , “chat” “chatter” 
“chatty”“chatting” 其 至 “chatbot” 可 能 也 会 被 同等 对 待 。 与 此 类 似 的 是 ， 尽 管 “bank” “banked” 
和 “banking” 分 别 和 河岸 、 汽 车 及 金融 有 关 ， 但 是 如 果 使 用 了 词 干 还 原 工 具 ， 它 们 会 被 同等 对 待 。 

在 浏览 这 一 节 时 , 大 家 可 以 想象 一 下 可 能 会 有 这 样 的 词 ， 经 过 词 形 归并 处 理 之 后 , 可 能 会 彻 
底 改 变 该 词 的 意思 ,甚至 可 能 得 到 意义 完全 相反 的 词 ， 从 而 导致 与 期 望 回 复 相 反 的 结果 。 这 种 情 
形 称 为 “刻意 欺骗 ”( spoofing )， 即 通过 精心 构造 难以 处 理 的 输入 ， 有 意 使 机 器 学 习 流 水 线 产生 
错误 的 响应 。 

由 于 考虑 了 词义 , 相对 于 词 干 还 原 和 大 小 写 归 一 化 , 词 形 归并 是 一 种 潜在 的 更 具 精 确 性 的 词 
的 归 一 化 方法 。 通过 使 用 同义词 表 和 词尾 相关 的 知识 库 , 词 形 归 并 工具 可 以 确保 只 有 那些 具有 相 
似 意 义 的 词 才 会 被 归并 成 同一 词 条 。 

有 些 词 形 归并 工具 除 拼写 之 外 还 使 用 词 的 词性 (part of speech, POS ) 标签 来 提高 精确 率 。 
词 的 POS 标签 代表 了 该 词 在 短语 或 句子 中 的 语法 角色 。 例如 ,名 词 一 般 是 代表 人 物 、 地 点 、 事 
物 的 词 。 形 容 词 常常 代表 修饰 或 描述 名 词 的 词 。 动 词 是 代表 动作 的 词 。 只 孤立 地 考虑 词 本 身 是 
无 法 判断 词性 的 ， 判 断 词性 要 考虑 该 词 的 上 下 文 。 因 此 ,一 些 高 级 的 词 形 归并 工具 无 法 在 孤立 
的 词 上 运行 。 

大 家 能 否 设 想 如 何 使 用 词性 信息 从 而 比 使 用 词 干 还 原 更 好 地 识别 词 的 “词根 ”? 考虑 词 better, 
词 干 还 原 工 具 可 能 会 去 掉 better 词尾 的 er， 从 而 得 到 bett BK bet. 但是， 这样 做 会 将 better 和 betting, 
bets 和 Bet’s 混在 一 起 ， 而 一 些 更 相近 的 词 如 betterment, best 甚至 good 和 goods 却 被 排除 在 外 。 

因此 , 在 很 多 应 用 中 词 形 归并 比 词 干 还 原 更 有 效 。 词 干 还 原 工具 实际 上 仅仅 用 于 大 规模 信息 
检索 应 用 ( 关键 词 搜索 ) 中 。 如 果 我 们 真 的 希望 在 信息 检索 流水 线 中 通过 词 干 还 原 工 具 进行 降 维 
和 提高 召回 率 , 那么 可 能 需要 在 使 用 词 干 还 原 工具 之 前 先 使 用 词 形 归并 工具 。 由 于 词 元 本 身 是 一 
个 有 效 的 英文 词 , 词 干 还 原 工 具 作 用 于 词 形 归并 的 输出 会 很 奏效 。 这 种 技巧 会 比 单独 使 用 词 干 还 
原 工具 能 更 好 地 降 维 和 提高 信息 检索 的 召回 率 。 

在 Python 中 如 何 识别 词 元 ?NLTK 包 提 供 了 相关 的 函数 。 需 要 注意 的 是 , 如 果 需 要 得 到 更 精 
确 的 词 元 ， 需 要 告诉 WordNetLemmatizer 你 感 兴趣 的 词性 是 什么 。 






































































































































































































































© 感谢 Kyle Gorman 指出 了 这 一 点 。 
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>>> nltk.download('wordnet') 
>>> from nltk.stem import WordNetLemmatizer 




















>>> lemmatizer = WordNetLemmatizer () 默认 词性 是 “n” 
>>> lemmatizer.lemmatize ("better") 表示 名 词 
'better' 
` 7 W W am 3 W 
a R  e e better", pos="a") SO pe 表 未 形容词 
>>> lemmatizer.lemmatize ("good", pos="a") 
"good' 
>>> lemmatizer.lemmatize("goods", pos="a") 
"goods! 
>>> lemmatizer.lemmatize("goods", pos="n") 
"good' 
>>> lemmatizer.lemmatize("goodness", pos="n") 
"goodness! 
>>> lemmatizer.lemmatize("best", pos="a") 
‘best! 





读者 可 能 会 觉得 奇怪 ， 为 什么 上 述 对 better 的 第 一 次 词 形 归 并 处 理 对 它 并 没有 根本 改变 ， 其 
原因 在 于 ， 词 的 词性 可 能 会 对 其 意义 有 巨大 影响 。 如 果 没 有 给 定 某 个 词 的 词性 ，NLITK 词 形 归并 
工具 会 默认 其 为 名 词 。 一 旦 指定 了 better 的 正确 词性 “a”， 即 形容 词 ， 词 形 归 并 工具 就 会 返回 正 
确 的 词 元 。 遗 憾 的 是 ，NLTK 词 形 归 并 工具 仅 限 于 普林斯顿 WordNet 词义 图 中 的 关联 。 因 此 ，best 
不 会 和 better 产生 同样 的 词根 。WordNet 词义 图 中 也 忽略 了 goodness 和 good 之 间 的 关联 。 而 另 一 
方面 ，Porter 词 干 还 原 工具 却 通 过 去 掉 所 有 词尾 的 ness 找到 上 述 两 个 词 之 间 的 关联 : 


>>> stemmer.stem('goodness') 
"good' 





























4. 使 用 场景 


什么 时 候 用 词 形 归 并 ?什么 时 候 用 词 干 还 原 ? 词 干 还 原 工具 通常 计算 速度 比较 快 , 所 需要 的 代码 
和 数据 集 也 更 简单 。 但 是 ， 相 对 于 词 形 归并 ， 词 干 还 原 会 犯 更 多 的 错误 ,会 对 更 多 的 词 进行 处 理 ， 从 
而 对 文本 的 信息 内 容 及 意义 的 缩减 量 也 更 大 。 无 论 是 词 干 还 原 还 是 词 形 归并 , 都 会 减 小 词汇 表 的 规模 ， 
同时 增加 文本 的 歧义 性 。 但 是 词 形 归 并 工具 基于 词 在 文本 中 的 用 法 和 目标 词义 ， 能 够 尽 可 能 地 保留 文 
本 的 信息 内 容 。 因 此 ， 有 些 NLP 包 如 spaCy 不 提供 词 干 还 原 工具 ， 而 只 提供 词 形 归并 工具 。 

如 果 应 用 中 包含 搜索 过 程 , 那么 词 干 还 原 和 词 形 归并 能 够 通过 将 查询 词 关 联 到 更 多 文档 而 提 
高 搜索 的 召回 率 。 但 是 ， 词 干 还 原 、 词 形 归并 其 至 大 小 写 转换 将 显著 降低 搜索 结果 的 正确 率 
(precision ) 和 精确 率 ( accuracy )。 上 述 词 汇 表 压缩 方法 会 导致 信息 检索 系统 ( 搜索 引擎 ) 返回 
更 多 与 词 的 原本 意义 不 相关 的 文档 。 由 于 搜索 结果 可 以 按照 相关 度 排 序 , 搜索 引擎 和 文档 索引 常 
常 使 用 词 干 还 原 或 词 形 归 并 来 提高 所 需 文档 在 搜索 结果 中 出 现 的 可 能 性 。 但 是 ,最 终 搜 索引 擎 会 
将 词 干 还 原 前 和 还 原 后 的 检索 结果 混在 一 起 ， 通 过 排序 展示 给 用 户 。 





































































































D 额外 的 元 数据 可 以 用 于 调整 搜索 结果 的 排序 。DuckDuckGo 和 其 他 流行 的 Web 搜索 引擎 整合 了 超过 400 
个 独立 的 算法 ( 包括 用 户 贡献 的 算法 ) 来 对 检索 结果 进行 排序 。 
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而 对 基于 搜索 的 聊天 机 器 人 来 说 ， 精 确 率 更 为 重要 。 因 此 ， 聊 天 机 器 人 会 先 基于 未 进行 词 二 
还 原 、 未 进行 归 一 化 的 词 来 搜索 最 相近 的 匹配 , 只 有 失败 了 才 转向 词 干 还 原 或 者 过 滤 掉 的 词 条 号 
配 来 寻找 可 能 的 结果 。 而 词 条 归 一 化 前 的 匹配 结果 的 级 别 高 于 归 一 化 后 的 匹配 结果 。 


重要 说 明 除非 文本 (这些 文 本 包含 一 些 大 家 感 兴趣 的 词 的 用 法 或 者 大 写 形式 ) REAR, 否则 就 
避免 使 用 词 干 还 原 和 词 形 归并 。 这 一 点 是 我 们 的 底线 。 随 着 NLP 数据 集 的 井喷 式 增长 ， 上 述 情况 
对 英文 文档 来 说 已 经 很 少见 了 ， 除 非 文档 使 用 了 大 量 的 术语 ， 或 者 来 自 科 学 、 技 术 或 文学 的 一 个 极 
小 的 子 领域 。 尽 管 如 此 ， 对 于 除 英 语 之 外 的 语言 ， 仍 然 存在 词 形 归并 的 使 用 场景 。 斯 坦 福 大 学 的 信 
息 检索 课程 完全 忽略 了 词 干 还 原 和 词 形 归并 ,因为 它们 带 来 的 召回 率 提高 微不足道 而 正确 率 却 降低 


a 


明显 。 























2.3 情感 


无 论 NLP 流水 线 中 使 用 的 是 单个 词 、n-gram、 词 干 还 是 词 元 作为 词 条 ， 每 个 词 条 都 包含 了 
一 些 信息 。 这 些 信息 中 的 一 个 重要 部 分 是 词 的 情感 ， 即 一 个 词 所 唤起 的 总 体感 觉 或 感情 。 这 种 度 
量 短语 或 者 文本 块 的 情感 的 任务 称 为 情感 分 析 ( sentiment analysis )， 是 NLP 中 的 一 个 常见 应 用 。 
在 很 多 公司 中 ，NLP 工程 师 要 做 的 最 主要 的 工作 就 是 情感 分 析 。 

公司 很 想 知 道 用 户 对 其 产品 的 看 法 。 因 此 ,他 们 和 常常 提供 了 用 户 反馈 的 通道 。 在 亚马逊 或 者 
Rotten Tomatoes 上 对 用 户 购买 的 商品 打上 星 级 ， 是 获得 用 户 对 商品 的 可 量化 的 看 法 的 一 种 办 法 。 
但 是 更 自然 的 一 种 方式 是 让 用 户 利 用 自然 语言 对 商品 进行 评价 。 给 用 户 一 个 空白 文本 框 , 用 户 可 
以 在 其 中 填 上 更 加 详细 的 商品 评价 内 容 。 

过 去 我 们 必须 对 这 些 评论 一 一 阅读 。 只 有 人 类 才能 够 理解 自然 语言 文本 中 诸如 情绪 、 情 感 之 
类 的 东西 , 对 不 对 ?然而 ,如 果 我 们 必须 要 阅读 几 千 条 评论 , 就 会 发 现 阅 读者 的 工作 多 么 枯燥 乏味 
并 日 会 屡屡 犯错 。 人 类 特别 不 善于 阅读 用 户 的 反馈 ,特别 是 那些 批评 性 的 反馈 或 负面 的 反馈 。 而 
顾客 通常 的 反馈 沟通 方式 并 不 是 特别 好 ， 难 以 通过 人 类 自然 的 触发 锅 和 过 滤器 。 

但 是 机 器 既 不 会 有 人 类 的 那 种 倾向 性 ， 又 没有 人 类 的 情感 触发 器 。 而 且 ， 并 不 仅仅 是 人 类 才 
可 以 处 理 自然 语言 文本 和 从 中 提取 信息 甚至 意义 ，NLP 流水 线 也 能 够 快速 客观 地 处 理 大 量 用 户 反 
i, 而 不 会 出 现 什么 倾向 性 。 同时, NLP 流水 线 能 够 输出 文本 的 正 向 性 或 者 负 向 性 以 及 任何 其 他 
的 情感 质量 的 数值 等 级 。 

另 一 个 常见 的 情感 分 析 应 用 是 垃圾 邮件 或 钓鱼 消息 的 过 滤 。 我 们 也 希望 自己 的 聊天 机 器 
人 能 够 判断 聊天 信息 中 的 情感 以 便 能 够 合理 地 进行 回复 。 其 至 更 重要 的 一 点 是 ， 我 们 希望 聊 
天 机 器 人 在 输出 语句 之 前 能 够 知道 该 语句 的 情感 倾向 ， 从 而 引导 机 器 人 输出 更 加 亲 和 和 友好 
的 语句 。 实 现 上 面 这 一 点 的 一 种 最 简单 方式 就 是 按照 妈妈 们 说 过 的 一 句 话 去 做 : 如 果 不 能 说 
出 得 体 的 话 ， 就 什么 都 别 说 。 因 此 ， 我 们 需要 机 器 人 能 够 度量 要 说 的 任何 话 的 得 体 程度 从 而 
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D 详 见 标题 为 “Stemming and lemmatization” 的 网 页 。 
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决定 是 否 需 要 回复 。 

BBA , 要 度量 一 段 文本 的 情感 产生 所 谓 的 倾向 性 数值 , 需要 构造 什么 类 型 的 流水 线 呢 ?假如 
需要 度量 文本 的 喜好 度 ， 即 某 个 人 对 其 所 评论 的 产品 或 服务 的 喜欢 程度 ,应 该 如 何 ” 再 如 , 我们 
希望 NLP 流水 线 和 情感 分 析 算 法 输出 单个 从 -1 到 +1 之 间 的 浮 点 值 。 对 于 类 似 于 “Absolutely 
perfect! Love it! :-) :-) :-).” 这 样 的 正 向 情感 文本 ， 算 法 会 输出 +1。 而 对 于 类 似 于 “Horrible! 
Completely useless. :(.” 这 样 的 负 向 情感 文本 , 算法 会 输出 -1。 对 于 类 似 于 “It was OK. Some good 
and some bad things.” 这 样 的 评论 ， 算 法 会 输出 一 个 接近 于 0 的 值 ， 如 0.1。 

有 两 种 情感 分 析 的 方法 ， 分 别 是 : 

mw 基于 规则 的 算法 ， 规 则 由 人 来 撰写 ; 

E 基于 机 器 学 习 的 模型 ， 模 型 是 机 顺从 数据 中 学 习 而 得 到 。 

第 一 种 情感 分 析 的 方法 使 用 用 户 设计 的 规则 ( 有 时 称 为 启发 式 规则 ) 来 度量 文本 的 情感 。 一 
个 常用 的 基于 规则 的 方法 是 在 文本 中 寻找 关键 词 , 并 将 每 个 关键 词 映射 到 某 部 字典 或 者 映射 上 的 
数值 得 分 或 权重 ,例如 这 部 字典 可 以 是 Python 的 dict。 到 现在 为 止 , 我 们 已 经 知道 了 如 何 进行 
分 词 处 理 ， 我 们 在 字典 中 可 以 使 用 分 词 后 得 到 的 词 干 、 词 元 或 者 n-gram 词 条 ， 而 不 只 是 词 。 算 
法 中 的 规则 将 迭 加 文档 中 每 个 关键 词 在 字典 中 的 情感 得 分 ,显然 ,在 文本 上 运行 我 们 的 算法 之 前 ， 
我 们 必须 要 手工 构建 一 部 关键 词 及 每 个 关键 词 的 情感 得 分 的 字典 。 后 面 我 们 会 利用 代码 片段 展示 
如 何 使 用 sklearn 中 的 VADER 算法 来 实现 这 一 点 。 

第 二 种 基于 机 带 学 习 的 方法 利用 一 系列 标注 语句 或 者 文档 来 训练 机 咒 学 习 模型 以 产生 规则 。 
机 器 学 习 的 情感 模型 在 经 过 训练 以 后 能 够 处 理 输 入 文本 并 输出 该 文本 的 一 个 情感 数值 得 分 , 该 得 
分 就 像 正 向 倾向 性 、 垃 圾 程度 和 钓鱼 程度 一 样 。 对 于 机 器 学 习 方法 ， 需 要 大 量 标注 好 “正确 ” 情 
感 得 分 的 文本 数据 。 推 文 数据 往往 被 用 于 这 类 方法 ， 因 为 推 文中 的 哈 希 标签 ( 如 #awesome、 
#happy 或 #sarcasm ) 往往 可 用 于 构建 “ 自 标注 ”( self-labeled ) 的 数据 集 。 大 家 的 公司 可 能 
一 些 经 过 五 星 评级 的 产品 评论 ， 可 以 利用 这 些 五 星 评级 作为 文本 正 向 倾向 性 的 数值 得 分 进行 训 
练 。 后 面 我 们 在 介绍 VADER 之 后 ， 很 快 就 给 大 家 展示 如 何 处 理 这 样 的 数据 集 ， 并 通过 训练 一 个 
基于 词 条 的 朴素 贝 叶 斯 机 器 学 习 算 法 ,来 度量 评论 的 正 向 情感 倾向 程度 。 
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dn do 















































2.3.1 VADER: 一 个 基于 规则 的 情感 分 析 器 


佐治 亚 理工 学 院 (GA Tech ) 的 Hutto 和 Gilbert 提出 了 最 早 成 功 的 基于 规则 的 情感 分 析 算法 
之 一 ， 他 们 称 之 为 VADER 算法 ， 是 Valence Aware Dictionary for sEntiment Reasoning 的 简称 。 
很 多 NLP 包 实 现 的 是 该 算法 的 某 种 形式 。NLTK 包 中 的 nltk.sentiment.vader 实现 了 VADER 
BIE, Hutto 自己 维护 着 Python 包 vaderSentiment。 下 面 会 给 出 使 用 vaderSentiment 
的 代码 片段 。 























O 参见 Hutto 和 Gilbert 的 文章 “VADER: A Parsimonious Rule-based Model for Sentiment Analysis of Social 
Media Text”. 
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要 运行 下 面 的 例子 需要 pip install vaderSentiment”, ME nlpia 包 中 并 没有 包含 


vaderSentiment: 


SentimentIntensityAnalyzer.lexicon 包含 了 
词 条 及 其 对 应 的 我 们 提 到 的 得 分 


>>> from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer 
>>> sa = SentimentIntensityAnalyzer () 
































>>> sa.lexicon < 

{ 

reae ai Op < e ` a = LA 
ne 这 里 的 分 词 器 最 擅长 处 理 标点 符号 和 表情 名 
本 导 ， 这 样 VADER 才能 更 好 地 工作 。 毕 竞 ， 设 
'pls': 0.3, 计 表 情 符号 就 是 为 了 表达 大 量 情 感 

"DIZ 1043 














Ka 如 果 在 流水 线 中 词 干 还 原 工具 (或 词 形 归并 工具 ), 需要 将 该 词 干 还 原 工 具 
'great': 3.1, 也 用 于 VADER 词 库 ， 使 单个 词 干 或 词 元 中 的 所 有 词 的 得 分 组 合 起 来 





























>>> [(tok, score) for tok, score in sa.lexicon.items () 
OD ne eee IHE VADER 定义 的 7500 个 词 条 中 , 只 有 3 个 包含 





[ 




















" $ ' ", 1.6), f a 
aoe E i 0) 空格 ,其 中 的 两 个 实际 上 是 n-gram， 男 一 个 是 表 
(dD -is 8) : ' 达 “kiss” 的 表情 符号 


('screwed up', -1.5)] 
>>> sa.polarity scores (text=\ 
"Python is very readable and it's great for NLP.") 
{'compound': 0.6249, 'neg': 0.0, 'neu': 0.661, 
"pos': 0.339} 
>>> sa.polarity_scores (text=\ 








VADER 算法 用 3 个 不 同 的 分 























类 正 fi ray ) 3 

"Python is not a bad choice for most applications.") nee oo 
{'compound': 0.431, 'neg': 0.0, 'neu': 0.711, 表达 情感 极 性 的 强度 ， 然 后 
'pos': 0.289} <«— 将 它们 组 合 在 一 起 得 到 一 个 








注意 ，VADER 对 于 否定 处 理 得 非常 好 ， 相 比 于 not bad, 复合 的 情感 倾向 性 得 分 
great 正 向 情感 程度 只 是 略微 高 一 点 。VADER 内 置 的 分 
词 咒 忽略 所 有 不 在 其 词 库 中 的 词 ， 也 完全 不 考虑 n-gram 



































下 面 看 看 上 述 基 于 规则 的 方法 在 我 们 前 面 提 到 的 语句 上 的 应 用 结果 如 何 : 


>>> corpus = ["Absolutely perfect! Love it! :-] :-] :-]", 
"Horrible! Completely useless. :(", 
at "It was OK. Some good and some bad things."] 
>>> for doc in corpus: 
scores = sa.polarity_scores (doc) 





print ('{:+}: {}'.format(scores['compound'], doc) ) 
+0.9428: Absolutely perfect! Love it! :-) :-) :-) 
-0.8768: Horrible! Completely useless. : ( 
+0.3254: It was OK. Some good and some bad things. 


这 看 上 去 和 我 们 想 要 的 差不多 。VADER 的 唯一 不 足 在 于 ， 它 只 关注 其 词 库 中 的 7500 个 词 条 ， 而 
非 文档 中 的 所 有 词 。 如 果 想 把 所 有 词 及 其 情感 得 分 加 入 词 库 该 怎么 做 ?如 果 不 想 对 词 库 中 数 千 词 中 的 























tr 








© 可 以 从 GitHub 上 获得 源码 和 更 详细 的 安装 指令 。 
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每 个 词 进行 编码 该 如 何 处 理 ? 或 者 将 大 量 定 制 的 词 加 入 词 库 SentimentIntensityAnalyzer. 
lexicon 中 又 该 如 何 处 理 ? 如 果 不 理解 语言 的 话 ， 基 于 规则 的 方法 几乎 不 可 能 有 用 ， 因 为 不 知 
道 要 在 字典 〈 词 库 ) 中 放 入 什么 分 数 ! 

而 这 就 是 基于 机 器 学 习 的 情感 分 析 器 要 做 的 事情 。 


























2.3.2 ”朴素 贝 叶 斯 


朴素 贝 叶 斯 模型 试图 从 一 系列 文档 集合 中 寻找 对 目标 (输出 ) 变量 有 预测 作用 的 关键 词 。 当 
目标 变量 是 要 预测 的 情感 时 , 模型 将 寻找 那些 能 预测 该 情感 的 词 。. 朴 素 贝 叶 斯 模型 的 一 个 好 处 是 ， 
其 内 部 的 系数 会 将 词 或 词 条 映射 为 类 似 于 VADER 中 的 情感 得 分 。 只 有 这 时 ,我 们 才 不 必 受 限于 
让 人 来 决定 这 些 分 数 应 该 是 多 少 ， 机 器 将 寻找 任何 其 认为 的 “最 佳 ”得 分 。 

对 于 任 一 机 顺 学 习 算法 , 首先 必须 要 有 一 个 数据 集 ， 即 需要 一 些 已 经 标注 好 正 向 情感 的 文本 
文档 。 在 和 同伴 构建 VADER FY, Hutto 整理 了 4 个 不 同 的 情感 数据 集 。 我 们 可 以 从 nlpia 包 中 
加 载 这 些 数据 集 。 

>>> from nlpia.data.loaders import get_data 

>>> movies = get_data('hutto_movies') 


>>> movies.head().round(2) 
sentiment text 










































































1 

1 2.27 The Rock is destined to be the 21st Century... 
2 3.53 The gorgeously elaborate continuation of ''.. 
3 -0.60 Effective but too tepid ... 
4 1.47 If you sometimes like to go to the movies t... 
5 1.73 Emerges as something rare, an issue movie t... 
>>> movies.describe().round (2) 





sentiment 
count 10605.00 
mean 0.00 看 起 来 电影 的 评分 区 间 在 -4 到 +4 之 间 
min -3.88 
max 3.94 





下 面 使 用 分 词 器 对 所 有 电影 评论 文本 进行 切 分 , 从 而 得 到 每 篇 评论 文本 的 词 袋 , 然后 像 本 章 
前 面 提 到 的 例子 那样 将 它们 放 入 Pandas DataFrame 中 。 









































这 行 用 于 帮助 在 控制 台 更 美观 相对 于 TreebankWordTokenizer 分 词 Python 内 置 的 Counter 的 输 
地 显示 较 宽 的 DataFrame 器 或 者 本 章 其 他 的 分 词 咒 ，NLTK 的 入 是 一 系列 对 象 , 然后 对 这 
casual tokenize 可 以 更 好 地 处 理 表情 符 些 对 象 进行 计数 , 并 返回 一 
=n Ste be =N 4+ HE 2 
aa a aa, A 不 寻常 的 标点 符号 以 及 行业 术语 部 字典 ， 其 中 键 是 对 象 本 身 
pd.set_option('display.width', 75) (这 里 是 词 条 ), 值 是 这 些 对 
象 计数 后 得 到 的 整数 值 





from nltk.tokenize import casual tokenize 
bags_ of words = [] 

from collections import Counter 4 
for text in movies.text: 

















D 如 果 还 没有 安装 nlpia 的 话 ， 请 检查 本 书 的 GitHub 上 给 出 的 安装 指令 。 
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bags_of_words.append (Counter (casual_tokenize (text) ) ) 

























































































>>> df_bows = pd.DataFrame.from_records (bags_of_words) te 
>>> df_bows = df_bows.fillna(0) .astype (int) < 
-—>>>> df_bows.shape 
(10605, 20756) 
>>> df_bows.head() 
! " # $ &$ & ! zone zoning zzzzzzzzz % élan - '% 
0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 
1 0 0 0 0 0 0 4 0 0 0 0 0 0 0 
2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
3 10> 0 0 90? 0 0 0 0 0 0 0 0 
2 $010 A, 10.107 0I <0" Da 0 0 0 0 O° 10° 9 
>>> df_bows.head() [list (bags_of_words[0].keys())] 
The Rock is destined to be... Van Damme or Steven Segal 
0 1 1 1 AN 2 £ T L 1 1 dod 
1 2 0 1 0 0 0 0 0 0 0 0 4 
2 0 0 0 0 0 0 0 0 0 0 0 0 
3 0 0 1 0 4 0 0 0 0 0 0 1 
4 0 0 0 0 0 0 0 0 0 0 (Ot 
Numpy 和 Pandas 只 能 用 浮 点 对 象 来 表示 NaN, 因此 一 
司 袋 表 格 可 能 会 快速 增长 到 很 大 的 规模 ， 日 将 所 有 NaN 填充 为 0， 可 以 将 DataFrame 转换 为 整 
特别 是 在 没有 使 用 前 面 提 到 的 大 小 写 归 一 数 ， 这 样 在 内 存 存储 和 显示 上 可 以 紧凑 得 多 
化 、 停 用 词 过 滤 、 词 干 还 原 和 词 形 归并 过 
程 时 更 是 如 此 。 在 这 里 可 以 考虑 搬入 上 述 
降 维 工具 看 看 对 流水 线 的 影响 如 何 DataFrame 构造 器 from | records() 的 输入 是 一 个 字典 的 序列 ， 
它 为 所 有 键 构建 列 ， 值 被 加 入 合适 的 列 对 应 的 表格 中 ， 而 
缺失 值 用 NaN 进行 填充 



































现在 我 们 拥有 了 朴素 贝 时 斯 模型 所 需要 的 所 有 数据 , 利用 这 些 数据 可 以 从 自然 语言 文本 中 寻 
找 那些 预测 情感 的 关键 词 : 
平均 预测 错误 绝对 值 MTUMIE, DIAEA re 
(也 称 为 MAE ) 是 2.4 量 (代表 情感 的 浮 点 数 ) 转换 成 离散 的 Pe 


(整数 、 字 符 串 或 者 布尔 值 ) 1) 转换 到 -4 到 +4 之 间 ， 从 
而 能 够 和 标准 情感 得 分 进行 
比较 。 利 用 nb.predict proba 
可 以 得 到 一 个 连续 值 

















>>> from sklearn.naive_bayes import MultinomialNB 
>>> nb = MultinomialNB () 
>>> nb = nb.fit(df_bows, movies.sentiment > 0) 























>>> movies['predicted_sentiment'] =\ 
nb.predict_proba(df_bows) * 8 - 4 <—_ 
>>> movies['error'] = (movies.predicted_sentiment - movies.sentiment) .abs () 
>>> movies.error.mean() .round(1) 
> 2.4 
>>> movies['sentiment_ispositive'] = (movies.sentiment > 0).astype (int) 
>>> movies['predicted_ispositiv'] = (movies.predicted_sentiment > 0) .astype (int) 
>>> movies['''sentiment predicted_sentiment sentiment_ispositive\ 
predicted_ispositive'''.split()].head(8) 
sentiment predicted_sentiment sentiment_ispositive predicted_ispositive 
id 


1 2.266667 4 1 1 
2 3.533333 4 1 1 
3 -0.600000 -4 0 0 


60 


co ~ 0U e 


>>> 


-466667 
- 733333 
2.533333 
2.466667 
.266667 





0.9344648750589345 
这 里 点 赞 评级 的 正确 率 是 93% 
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上 上 上 上 


(movies.predicted_ispositive == 
movies.sentiment_ispositive).sum() / len(movies) 


OrRPrRRE 


只 需要 短 短 的 几 行 代码 (及 很 多 数据 )， 就 可 以 构建 一 个 不 错 的 情感 分 析 器 ， 这 确实 是 一 个 
不 错 的 开端 。 我 们 不 需要 像 VADER 一 样 构建 一 个 包含 7500 个 词 及 其 对 应 情感 得 分 的 列表 ， 而 
只 需要 给 出 一 些 文本 及 其 标注 。 这 就 是 机 器 学 习 和 NLP 的 力量 所 在 ! 

如 果 使 用 一 个 完全 不 


样 呢 ? 


如 果 想 和 上 面 一 样 构 建 一 个 实际 的 情感 分 析 带 ， 
试 集 ， 要 获得 有 关 测 试 集 / 训 练 集 的 分 割 的 更 多 信息 ， 参 见 附录 D )。 如 果 强 行 对 所 有 的 文本 





























样 的 情感 得 分 ( 如 商品 评论 而 非 电影 评论 的 得 分 ) 集 





Ty 





， 结 果 又 会 怎 


记得 要 对 训练 数据 进行 分 割 ( 留 出 一 个 测 


点 


ayy 


赞 或 者 点 差 ， 那么 一 个 随机 猜测 的 MAE 大 概 在 4 Ze. AU, EAS TR oP rae CHE LE EL 
猜测 好 一 半 。 


>>> products = get_data('hutto_products') 


bags_of_words = [] 
>>> for text in products.text: 
eek bags_of_words.append (Counter (casual_tokenize (text) ) ) 
>>> df_product_bows = pd.DataFrame.from_records (bags_of_words) 变 成 了 23303 7I] ) 
>>> df_product_bows = df_product_bows.fillna(0) .astype (int) 
>>> df_all_bows = df_bows.append(df_product_bows) 
>>> df all bows.columns < 
Tides thn TA ae EN PS Be PSR a Es lB 
"Zoomed" 'zooming', 'zooms', 'zx', 'zzzzzzzzz', '~! "6, 
red) us Seal 
dtype='object', length=23302) 
>>> df_product_bows = df_all_bows.iloc[len (movies) :] [df_bows.columns] 








>>> df_product_bows. 
(3546, 20756) 

>>> df_bows.shape 
(10605, 20756) 

>>> products [ispos] 
(products.sentiment > 0) .astype (int) 

>>> products['predicted_ispositive'] = 

» nb.predict (df_product_bows.values) .astype (int) 
>>> products.head() 


id 
0 


1 
2 
3 


上 上 上 PR 


Sentiment 

af -0.90 
2 =0.15 
_3 -0.20 
_4 -0.10 


新 的 词 袋 中 包含 了 原来 
DataFrame 词 袋 中 没有 的 
词 条 ( 原来 的 20756 列 








Shape 


这 是 原来 的 
KADES 




















text 
troubleshooting ad-2500 and ad-2600 
repost from january 13, 2004 witha... 
does your apex dvd player only play ... 
or does it play audio and video but ... 


< 一 一 


需要 确保 的 是 ， 新 的 商品 


DataFrame 词 袋 与 原来 用 于 

















训练 朴素 贝 叶 斯 模型 的 词 














AS 
Aa 





具有 完全 一 样 的 列 词 条 








以 及 完全 一 样 的 列 序 


ispos 


0 


0 
0 
0 
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4 1 5 -0.50 before you try to return the player ... 0 0 
>>> (products.pred == products.ispos).sum() / len(products) 
0.5572476029328821 


因此 ， 上 述 朴素 贝 叶 斯 模型 在 预测 商品 评论 是 否 正 向 ( BILE) 时 表现 得 很 粳 糕 。 造 成 如 此 
糟糕 效果 的 一 个 原因 是 , 利用 casual_tokenize 从 商品 文本 中 得 到 的 词汇 表 中 有 2546 个 词 条 
不 在 电影 评论 中 。 这 个 数目 大 概 是 原来 电影 评论 分 词 结果 的 10%， 也 就 是 说 这 些 词 在 朴素 贝 叶 斯 
模型 中 不 会 有 任何 权重 或 者 得 分 。 另 外 ,朴素 贝 叶 斯 模型 也 没有 像 VADER 一 样 处 理 和 否定 词 。 我 们 
必须 要 将 n-gram 放 到 分 词 器 中 才能 够 将 否定 词 ( 如 “not” 或 “never”) 与 其 修饰 的 可 能 要 用 的 正 
向 词 关联 起 来 。 

我 们 把 这 一 点 作为 NLP 实践 留 给 大 家 完成 ， 大 家 可 以 在 上 述 机 咒 学 习 模 型 的 基础 上 进行 改 
进 。 大 家 也 可 以 检查 自己 在 每 一 步 上 相对 于 VADER 的 进展 ， 从 而 考虑 一 下 NLP 中 “机 器 学 习 
是 否 一 定好 于 硬 编码 算法 ”这 个 问题 。 















































































































































24 小 结 
E 本 草 实 现 了 分 词 功能 ， 并 且 可 以 为 应 用 定制 分 词 器 。 
E n-gram 分 词 功 能 可 以 保留 文档 中 的 一 些 词 序 信息 。 
E 归 一 化 及 词 干 还 原 将 词 分 组 ， 可 以 提高 搜索 引擎 的 召回 率 , 但 是 同时 降低 了 正确 率 。 
E 词 形 归 并 以 及 像 casual tokenize() 一 样 的 定制 化 分 词 莫 可 以 提高 正确 率 ， 减少 信息 


损失 。 
m 停 用 词 可 能 包含 有 用 的 信息 ， 去 掉 停 用 词 不 一 定 总 有 好 处 。 
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本 章 主 要 内 容 

图 对 词 和 词 项 频率 计数 来 分 析 文 档 意义 

图 利用 齐 普 夫 定 律 预测 词 的 出 现 概率 

图 词 的 向 量 表示 及 其 使 用 

图 利用 逆 文 档 频 率 从 语料库 中 寻找 相关 文档 

图 利用 余弦 相似 度 和 Okapi BM25 公式 计算 文档 间 的 相似 度 





我 们 已 经 收集 了 一 些 词 ( 词 条 )， 对 这 些 词 进行 了 计数 ， 并 将 它们 归并 成 词 干 或 者 词 元 ， 接 
下 来 就 可 以 做 一 些 有 趣 的 事情 了 。 分 析 词 对 一 些 简 单 的 任务 有 用 , 例如 得 到 词 用 法 的 一 些 统计 信 
E, 或 者 进行 关键 词 检索 。 但 是 我 们 想 知 道 哪 些 词 对 于 某 篇 具体 文档 和 整个 语料库 更 重要 。 于 是 ， 
我 们 可 以 利用 这 个 “重要 度 ” 值 ， 基 于 文档 内 的 关键 词 重要 度 在 语料库 中 寻找 相关 文档 。 

这 样 做 的 话 , 会 使 我 们 的 垃圾 邮件 过 滤器 更 不 可 能 受制 于 电子 邮件 中 单个 粗鲁 或 者 几 个 略微 
垃圾 的 词 。 也 因为 有 较 大 范围 的 词 都 带 有 不 同 正 向 程度 的 得 分 或 标签 , 因此 我 们 可 以 度量 一 条 推 
文 的 正 癌 或 者 友好 程度 。 如 果 知 道 一 些 词 在 某 文 档 内 相对 于 剩余 文档 的 频率 , 就 可 以 利用 这 个 信 
息 来 进一步 修正 文档 的 正 向 程度 。 在 本 章 中 ,我们 将 会 学 习 一 个 更 精妙 的 非 二 值 词 度量 方法 , 它 
能 度量 词 及 其 用 法 在 文档 中 的 重要 度 。 几 十 年 来 , 这 种 做 法 是 商业 搜索 引擎 和 垃圾 邮件 过 滤器 从 
自然 语言 中 生成 特征 的 主流 做 法 。 

下 一 步 我 们 要 探索 将 第 2 章 中 的 词 转换 成 连续 值 , 而 非 只 表示 词 出 现 数 目的 离散 整数 , 也 不 
只 是 表示 特定 词 出 现 与 否 的 二 值 位 向 量 。 将 词 表 示 为 连续 空间 之 后 , 就 可 以 使 用 更 令 人 激动 的 数 
学 方法 来 对 这 些 表 示 进 行 运算 。 我们 的 目标 是 寻找 词 的 数值 表示 ,这 些 表示 在 某 种 程度 上 刻画 了 
词 所 代表 的 信息 内 容 或 重要 度 。 我 们 要 等 到 在 第 4 章 中 才能 看 到 如 何 将 这 些 信 息 内 容 转 换 成 能 够 
表示 词 的 意义 的 数值 。 

本 章 将 会 考察 以 下 3 种 表示 能 力 逐 步 增 强 的 对 词 及 其 在 文档 中 的 重要 度 进行 表示 的 方法 : 

量词 袋 一 一 词 出 现 频率 或 词 频 向 量 ; 

E n-gram 袋 一 一 词 对 (2-gram )、 三 元 组 (3-gram ) 等 的 计数 ; 
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E TF-IDF 向 量 一 一 更 好 地 表示 词 的 重要 度 的 得 分 。 


重要 说 明 TF-IDF 表示 词 项 频率 (term frequency ) 乘 以 逆 文 档 频 率 (inverse document frequency )。 
在 上 一 章 中 我 们 曾经 学 到 过 ， 词 项 频率 是 指 每 个 词 在 某 篇 文档 中 的 出 现 次 数 。 而 逆 文 档 频 率 指 的 是 
文档 集合 中 的 文档 总 数 除 以 某 个 词 出 现 的 文档 总 数 。 


ER 3 种 技术 中 的 每 一 种 都 可 以 独立 应 用 或 者 作为 NLP 流水 线 的 一 部 分 使 用 。 由 于 它们 都 
基于 频率 ， 因 此 都 是 统计 模型 。 在 本 书 的 后 面部 分 , 我 们 会 看 到 很 多 更 深入 观察 词 之 间 关 系 、 模 
式 和 非 线性 关系 的 方法 。 

但 是 ， 这 些 浅 层 的 NLP 机 器 已 经 很 强大 ， 对 于 很 多 实际 应 用 已 经 很 有 用 ， 例 如 垃圾 邮件 过 
滤 和 情感 分 析 。 
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在 第 2 章 我 们 构建 了 文本 的 第 一 个 向 量 空间 模型 。 我 们 使 用 了 每 个 词 的 独 热 向 量 , 然后 将 所 
有 这 些 向 量 用 二 进 制 OR 运算 (或 者 截断 和 ，clipped sum ) 组 合 以 创建 文本 的 向 量 表示 。 如 果 被 
加 载 到 一 个 诸如 Pandas DataFrame 的 数据 结构 中 , 这 种 二 值 的 词 袋 向 量 也 可 以 为 文档 检索 提供 一 
个 很 棒 的 索引 。 

接 下 来 考虑 一 个 更 有 用 的 向 量 表示 方法 , 它 计算 词 在 给 定 文 本 中 的 出 现 次 数 或 者 频率 。 这 里 
引入 第 一 个 近似 假设 , 假设 一 个 词 在 文档 中 出 现 的 次 数 越 多 , 那么 该 词 对 文档 的 意义 的 贡献 就 越 
大 。 相 比 于 多 次 提 到 “cats” 和 “gravity” 的 文档 ,一 篇 多 次 提 到 “wings” 和 “rudder” 的 文档 
可 能 会 与 涉及 喷气 式 飞 机 或 者 航空 旅行 的 主题 更 相关 。 或 者 ,我们 给 出 了 很 多 表达 正 向 情感 的 词 ， 
如 good, best, joy 和 fantastic， 一 篇 文档 包含 的 这 类 词 越 多 ， 就 认为 它 越 可 能 包含 了 正 向 情感 。 
然而 可 以 想象 ， 一 个 只 依赖 这 些 简单 规则 的 算法 可 能 会 出 错 或 者 误导 用 户 。 

下 面 给 出 了 一 个 统计 词 出 现 次 数 很 有 用 的 例子 : 





























>>> from nltk.tokenize import TreebankWordTokenizer 
>>> sentence = """The faster Harry got to the store, the faster Harry, 
ones the faster, would get home.""" 
>>> tokenizer = TreebankWordTokenizer () 
>>> tokens = tokenizer.tokenize(sentence.lower () 
>>> tokens 

['the', 

'faster', 

'harry', 

'got', 

EON 

'the', 

"store', 


r r 
'the', 
'faster', 
'harry', 
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Tp yp 
'the', 
'faster', 
bape 
'would', 
'get', 
'home', 


my 
我 们 希望 通过 简单 的 列表 (list )， 来 从 文档 中 得 到 独立 的 词 及 其 出 现 次 数 。Python 的 字典 可 
以 很 好 地 实现 这 一 目标 ， 由 于 同时 要 对 词 计 数 ， 因 此 可 以 像 前 面 章节 那样 使 用 Counter: 


>>> from collections import Counter 
>>> bag_of_words = Counter (tokens) 
>>> bag_of_words 
Counter ({'the': 4, 

"faster"? 3, 





Tharry™: 2, 
"Gotu 2 Ly 
BEONE cly 
'store': 1, 
RE 
'would': 1, 
‘get's: 1, 
"home': 1, 
Paha E) 








使 用 Python 中 任意 一 种 较 好 的 字典 实现 ， 键 的 次 序 都 会 发 生变 换 。 新 的 次 序 针对 存储 、 更 
新 和 检索 做 了 优化 ， 而 不 是 为 了 保持 显示 的 一 致 性 ， 包 含 在 原始 语句 词 序 中 的 信息 内 容 被 忽略 。 


注意 collections .Couter 对 象 是 一 个 无 序 的 集合 (collection )， 也 称 为 袋 (bag ) 或 者 多 重 集 
合 (mnultiset )。 基 于 所 使 用 的 平台 和 Python 版 本 ， 我 们 发 现 Counter 会 以 某 种 看 似 合理 的 次 序 来 
显示 ， 就 像 词 库 序 或 者 词 条 在 语句 中 出 现 的 先后 词 序 一 样 。 但 是 ， 对 于 标准 的 Python dict, RN 
不 能 依赖 词 条 ( 键 ) Æ Counter 中 的 次 序 。 


像 上 面 这 样 的 短文 档 , 无 序 的 词 袋 仍然 包含 了 句子 的 原本 意图 中 的 很 多 信息 。 这些 词 袋 中 的 
言 息 对 于 有 些 任 务 已 经 足够 强大 ， 这 些 任务 包括 垃圾 邮件 检测 、 情 感 (包括 倾向 性 、 满 意 度 等 ) 
计算 其 至 一 些微 妙 意 图 的 检测 如 讽刺 检测 。 虽然 这 只 是 一 个 词 袋 , 但 是 它 装 满 了 意义 和 信息 。 因 
此 ， 下 面 我 们 将 这 些 词 按照 某 种 方式 进行 排序 ， 以 便 能 够 对 此 有 所 了 解 。Ccounter 对 象 有 一 个 
很 方便 的 方法 most_common， 可 以 实现 上 述 目标 : 












































>>> bag_of_words.most_common (4) < 
Hehe ne 4), etah (Easter ti 3ye 4(tharry';-2)] 








在 默认 情况 下 ，most_common0 会 按照 频率 从 高 到 低 
列 出 所 有 的 词 条 ， 这 里 只 给 出 频率 最 高 的 4 个 词 条 




















具体 来 说 , 某 个 词 在 给 定 文档 中 出 现 的 次 数 称 为 词 项 频率 ,通常 简写 为 TF。 在 某 些 例子 中 ， 
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É 


可 以 将 某 个 词 的 出 现 频率 除 以 文档 中 的 词 项 总 数 从 而 得 到 归 一 I 
上 面 的 例子 中 ， 排 名 最 靠 前 的 4 个 词 项 或 词 条 分 别 是 “the”“,”“harry” 和 “faster”， 但 是 
“the” 和 标点 符号 “,” 对 文档 的 意图 而 言 信息 量 不 大 ， 人 ee ee 可 能 会 在 我 们 
快速 探索 之 旅 中 多 次 出 现 。 对 本 例 来 说 , 我 们 通过 标准 的 英语 停 用 词 表 和 标点 符号 表 来 去 掉 这 
些 词 。 后 面 我 们 不 会 总 是 这 样 做 ,但 是 现在 这 样 做 有 助 于 问题 的 简化 。 因 此 ， 最 后 我 们 在 排名 靠 
前 的 词 项 频率 向 量 ( 词 袋 ) 中 留 下 了 “harry” 和 “faster” 这 两 个 词 条 。 
接 下 来 从 上 面 定 义 的 Counter 对 象 (bag_of words) 中 计算 “harry” 的 词 频 。 


>>> times_harry_appears = bag_of_words['harry'] 原始 语句 中 的 独立 词 条 数 
>>> num_unique_words = len(bag_of_words) 

>>> tf = times_harry_appears / num_unique_words 

>>> round(tf, 4) 

0.1818 


这 里 先 暂停 一 下 , 我 们 更 深入 了 解 一 下 归 一 化 词 项 频率 这 个 贯穿 本 书 的 术语 。 它 是 经 过 文档 
长 度 “ 调 和 ”后 的 词 频 。 但 是 为 什么 要 “调和 ” 呢 ? 考虑 词 “dog” 在 文档 A 中 出 现 3 次， 在 文 
档 B 中 出 现 100 次 。 显 然 , “dog” 似 乎 对 文档 B 更 重要 ， 但 是 等 等 ! 这 里 的 文档 A 只 是 一 封 写 
给 兽医 的 30 个 词 的 电子 邮件 ， 而 文档 B 却 是 包含 大 约 580 000 个 词 的 长 篇 巨著 《战争 与 和 平 》 
(War & Peace)! 因此 ,我 们 一 开始 的 分 析 结 果 应 该 正好 反 过 来 ， 即 “dog” 对 文档 A 更 重要 。 下 
列 计算 中 考虑 了 文档 长 度 : 


TF(“dog, ” document, ) = 3/30 = 0.1 
TF(“dog, ” document, ) = 100/580 000 = 0.000 17 


现在 ,我 们 可 以 看 到 描述 关于 两 篇 文档 的 一 些 东西 ， 以 及 这 两 篇 文档 和 词 “dog” 的 关系 和 
两 篇 文科 之 问 的 关系 。 因此 , 我 们 不 使 用 原始 的 词 频 来 描述 语料库 中 的 文档 ， 而 使 用 归 一 化 词 项 
频率 。 类 似 地 ,我们 可 以 计算 每 个 词 对 文档 的 相对 重要 程度 。 显 然 ， 书 中 的 主人 公 Harry 及 其 对 
速度 的 要 求 是 文档 中 故事 的 中 心 。 我 们 已 经 做 了 很 多 的 工作 将 文本 转换 成 数值 ， 而且 超越 了 仅 表 
示 特 定 词 出 现 与 否 的 范围 。 当 然 , 我 们 现在 看 到 的 只 是 一 个 人 为 的 例子 , 但 是 通过 这 个 例子 我 们 

能 够 快速 看 出 基于 该 方法 可 能 得 到 多 么 有 意义 的 结果 。 下面 考虑 一 个 更 长 的 文本 片段 , 它 来 自 维 
基 百 科 中 有 关 风 筝 〈kite ) 的 文章 的 前 几 个 段落 : 


A kite is traditionally a tethered heavier-than-air craft with wing surfaces that react 














































































































against the air to create lift and drag. A kite consists of wings, tethers, and anchors. Kites 
often have a bridle to guide the face of the kite at the correct angle so the wind can lift it. A 
kites wing also may be so designed so a bridle is not needed; when kiting a sailplane for 
launch, the tether meets the wing at a single point. A kite may have fixed or moving anchors. 
Untraditionally in technical kiting, a kite consists of tether-set-coupled wing sets; even in 


technical kiting, though, a wing in the system is still often called the kite. 





D 但 是 ， 归 一 化 的 词 项 频率 实际 上 是 概率 ， 因 此 可 能 不 应 该 称 为 频率 。 
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The lift that sustains the kite in flight is generated when air flows around the kite’s 
surface, producing low pressure above and high pressure below the wings. The interaction 
with the wind also generates horizontal drag along the direction of the wind. The resultant 
force vector from the lift and drag force components is opposed by the tension of one or more 
of the lines or tethers to which the kite is attached. The anchor point of the kite line may be 
static or moving (such as the towing of a kite by a running person, boat, free-falling anchors 
as in paragliders and fugitive parakites or vehicle). 

The same principles of fluid flow apply in liquids and kites are also used under water. 
A hybrid tethered craft comprising both a lighter-than-air balloon as well as a kite lifting 
surface is called a kytoon. 

Kites have a long and varied history and many different types are flown individually and 
at festivals worldwide. Kites may be flown for recreation, art or other practical uses. Sport 
kites can be flown in aerial ballet, sometimes as part of a competition. Power kites are 
multi-line steerable kites designed to generate large forces which can be used to power 
activities such as kite surfing, kite landboarding, kite fishing, kite buggying and a new trend 


snow kiting. Even Man-lifting kites have been made. 








一 一 维基 百科 
然后 ， 将 该 文本 赋 给 变量 : 
>>> from collections import Counter 
>>> from nltk.tokenize import TreebankWordTokenizer 
>>> tokenizer = TreebankWordTokenizer () 和 上 面 一 样 , kite text= “A kite 

















>>> from nlpia.data.loaders import kite text is traditionally ...” 
>>> tokens = tokenizer.tokenize (kite text.lower () 

>>> token_counts = Counter (tokens) 

>>> token_counts 

Counter({"the": 260p "als 20; “kite: 16; "yns 15, 2.4) 


注意 TreebankWordTokenizer 会 返回 “kite.”( 带 有 句点 ) 作为 一 个 词 条 。Treebank 分 词 器 假 
定 文 档 已 经 被 分 割 成 独立 的 句子 ， 因 此 它 只 会 忽略 字符 串 最 末端 的 标点 符号 。 名 子 分 割 也 是 一 件 棘 
手 的 事情 ， 我 们 将 在 第 1 章 中 介绍 。 尺 管 如 此 ， 由 于 在 一 趟 扫描 中 就 完成 句子 的 分 割 和 分 词 处 理 
(还 有 很 多 其 他 处 理 ), spaCy 分 析 器 表现 得 更 快 是 更 精确 。 因 此 , 在 生产 型 应 用 中 ,可 以 使 用 spaCy 


是 前 面 在 一 些 简单 例子 中 使 用 的 NLTK 组 件 。 


好 了 ， 回 到 刚才 的 例子 里面 有 很 多 停 用 词 。 这 篇 维基 百科 的 文章 不 太 可 能 会 与 “the”“a”、 














连词 “and” 以 及 其 他 停 用 词 相 关 。 下 面 把 这 些 词 去 掉 : 





>>> import nltk 
>>> nltk.download('stopwords', quiet=True) 

True 

>>> stopwords = nltk.corpus.stopwords.words('english') 
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>>> tokens = [x for x in tokens if x not in stopwords] 


>>> kite _counts = Counter (tokens) 


>>> kite_counts 

Counter ({'kite': 16, 
'traditionally 
'tethered': 2, 


ys EA 


'heavier-than-air': 1, 


TOATE E 2y 
'wing': 5, 
"surfaces': 1, 
"react': 1, 
Vadis, 27 

Lee 


"made': 1}) } 


单纯 凭借 浏览 词 在 文档 中 





出 现 的 次 数 ， 我 们 就 可 以 学 到 一 些 东 西 。 词 项 kite(s)、wing 和 lift 





都 很 重要 。 并 且 ， 如 果 我 们 不 知道 这 篇 文章 的 主题 是 什么 ， 只 是 碰巧 在 大 规模 的 类 谷歌 知识 库 中 
浏览 到 这 篇 文章 ， 那 么 我 们 可 能 “程序 化 ”地 推 新 出 ， 这 篇 文章 与 “flight” 或 者 “lift” 相 关 ， 





或 者 实际 上 和 “kite” 相 关 。 











如 果 考 虑 语料库 中 的 多 篇 文档 ,事情 就 会 变 得 更 加 有 趣 。 有 一 个 文档 集 ， 这 个 文档 集中 的 每 
篇 文档 都 和 某 个 主题 有 关 , 如 放飞 风筝 (kite flying ) 的 主题 。 可 以 想象 , 在 所 有 这 些 文档 中 “string” 


和 “wind” 的 出 现 次 数 很 多 ， 
很 高 。 下 面 我 们 将 基于 数学 意 


3.2 向 量化 





因此 这 些 文档 中 的 词 项 频率 TF ("string") Ml TF ("wind") 都 会 
图 来 更 优雅 地 表示 这 些 数值 。 








我 们 已 经 将 文本 转换 为 基本 的 数值 。 虽然 仍然 只 是 把 它们 存储 在 字典 中 , 但 我 们 已 经 从 基于 











文本 的 世界 中 走出 一 步 ,而 进入 了 数学 王国 。 接 下 来 我 们 要 一 直 沿 着 这 个 方向 走 下 去 。 我们 不 使 






































是 一 个 有 序 的 集合 或 数组 。 通 











用 频率 字典 来 描述 文档 ， 而 是 构建 词 频 向 量 ， 在 Python 中 ， 这 可 以 使 用 列表 来 实现 ， 但 通常 它 
过 下 列 片段 可 以 快速 实现 这 一 点 : 











>>> document vector = [] 


>>> doc_length = len (tokens) 


>>> for key, value in k 
document_vector 
>>> document_vector 
[0.07207207207207207, 
0.06756756756756757, 
0.036036036036036036, 


ser 


0.0045045045045045045] 


ite_counts.most_common(): 


.append (value / doc_length) 





对 于 上 述 列表 或 者 向 量 ， 我 们 可 以 直接 对 它们 进行 数学 运算 。 
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提示 “我 们 可 以 通过 多 种 方式 加 快 对 上 述 数据 结构 的 处 理 "。 现 在 我 们 只 是 基于 基本 要 素 进行 处 理 ， 
但 很 快 我 们 就 会 想 加 快 上 面 的 步 又。 


如 果 只 处 理 一 个 元 素 , 那么 在 数学 上 没什么 意思 。 只 有 一 篇 文档 对 应 一 个 向 量 是 不 够 的 , 我 
们 可 以 获取 更 多 的 文档 , 并 为 每 篇 文档 创建 其 对 应 的 向 量 。 但 是 每 个 向 量 内 部 的 值 必须 都 要 相对 
于 某 个 在 所 有 向 量 上 的 一 致 性 结果 进行 计算 ( 即 所 有 文档 上 有 个 通用 的 东西 , 大 家 都 要 对 它 来 计 
算 )。 如 果 要 对 这 些 向 量 进行 计算 ， 那 么 需要 相对 于 一 些 一 致 的 东西 ， 在 公共 空间 中 表示 一 个 位 
置 。 向 量 之 间 需 要 有 相同 的 原点 ， 在 每 个 维度 上 都 有 相同 的 表示 尺度 ( scale ) 或 者 “单位 "”。 这 
个 过 程 的 第 一 步 是 计算 归 一 化 词 项 频率 , 而 不 是 像 在 上 一 节 中 那样 计算 文档 中 的 原始 词 频 。 第 二 
步 是 将 所 有 向 量 都 转换 到 标准 长 度 或 维度 上 去 。 

此 外 , 我 们 还 希望 每 个 文档 向 量 同一 维 上 的 元 素 值 代表 同一 个 词 。 但 我 们 可 能 会 注意 到 , 我 
们 写 给 兽医 的 电子 邮件 中 不 会 包含 《战争 与 和 平 》( War & Peace) 中 的 许多 词 。( 也 许 会 ， 谁 知 
道 呢 ? ) 但 是 ,如 果 人 允许 向 量 在 不 同 的 位 置 上 都 包含 0, 那么 这 也 是 可 以 的 (事实 上 也 是 必要 的 )。 
我 们 会 在 每 篇 文档 中 找到 独立 的 词 , 然后 将 这 些 词 集合 求 并 集 后 从 中 找到 每 个 独立 的 词 。 词汇 表 
中 的 这 些 词 集合 通常 称 为 词 库 ( lexicon )， 这 与 前 面 章节 中 所 引用 的 概念 相同 ， 只 是 前 面 都 考虑 
的 是 某 个 特定 的 语料库 。 下 面 我 们 看 看 比 《 战 争 与 和 平 》 更 短 的 电影 会 是 什么 样子 。 我 们 去 看 看 
Harry， 我 们 已 经 有 了 一 篇 “文档 ”"， 下 面 我 们 用 更 多 的 文档 来 扩充 语料库 : 

>>> docs = ["The faster Harry got to the store, the faster and faster Harry 

> would get home."] 


>>> docs.append("Harry is hairy and faster than Jill.") 
>>> docs.append("Jill is not as hairy as Harry.") 





























































































































提示 “如 果 我 们 不 只 是 在 计算 机 上 殴 出 来 这 段 程序 ， 而 是 想 一 起 玩 转 的 话 ， 那 么 可 以 从 nlpia 包 


导入 这 段 程序 : from nlpia.data.loaders import harry docs as docs, 


首先 ， 我 们 来 看 看 这 个 包含 3 篇 文档 的 语料库 的 词 库 : 


>>> doc_tokens = [] 

>>> for doc in docs: 

ee doc_tokens += [sorted(tokenizer.tokenize(doc.lower()))] 
>>> len(doc_tokens[0] 

17 
>>> all_doc_tokens = sum(doc_tokens, []) 
>>> len(all_doc_tokens) 

33 
>>> lexicon = sorted (set (all_doc_tokens) ) 
>>> len (lexicon) 

18 
>>> lexicon 


[arty 








'and', 





D 详 见 标题 为 “NumPy” 的 网 页 。 
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rasti 
'faster', 
"get', 
"got', 
‘Rairy', 
"harry', 
"home', 
risti 

aa ie ee 
‘not! 
"store', 
‘than 
'the', 
PEOS 
'would'] 


尽管 有 些 文档 并 不 包含 词 库 中 所 有 的 18 个 词 ， 但 是 上 面 3 篇 文档 的 每 个 文档 向 量 都 会 包含 









































18 个 值 。 每 个 词 条 都 会 被 分 配 向 量 中 的 一 个 槽 位 〈slot )， 对 应 的 是 它 在 词 库 中 的 位 置 。 正 如 我 
们 能 想到 的 那样 ， 向 量 中 某 些 词 条 的 频率 会 是 0: 








>>> from collections import OrderedDict 

>>> zero_vector = OrderedDict((token, 0) for token in lexicon) 
>>> zero_vector 

OrderedDict([(',', 0), 














接 下 来 可 以 对 上 述 基 本 向 量 进行 复制 ， 更 新 每 篇 文档 的 向 量 值 ， 然 后 将 它们 存储 到 数组 中 : 





的 实例 , 而 非 复 用 个 指针 指向 原始 对 象 的 内 存 位 置 ， 否 
























































>>> import copy 则 ,就 会 在 每 次 循环 中 用 新 值 重 写 相 同 的 zero_vector, 从 
>>> doc_vectors = [] 而 导致 每 次 循环 都 没有 使 用 新 的 零 向 量 
>>> for doc in docs: 

vec = copy.copy(zero_vector) < 


tokens = tokenizer.tokenize (doc. lower () 
token_counts = Counter (tokens) 
for key, value in token_counts.items(): 
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vec[key] = value / len(lexicon) 
doc_vectors.append (vec) 


现在 每 篇 文档 对 应 一 个 向 量 , 我 们 有 3 个 向 量 。 那 接 下 来 怎么 办 ? 我 们 能 对 它们 做 些 什 么 ? 
实际 上 , 这 里 的 文档 词 频 向 量 能 够 做 任意 向 量 能 做 的 所 有 有 趣 的 事情 ,因此 ， 接 下 来 我 们 首先 学 
习 一 些 有 关 向 量 和 向 量 空间 的 知识 "。 





向 量 空间 

向 量 是 线性 代数 或 向 量 代数 的 主要 组 成 部 分 。 它 是 一 个 有 序 的 数值 列表 , 或 者 说 这 些 数值 是 
句 量 空间 中 的 坐标 。 它 描述 了 空间 中 的 一 个 位 置 , 或 者 它 也 可 以 用 来 确定 空间 中 一 个 特定 的 方向 
和 大 小 或 距离 。 空 间 (space) 是 所 有 可 能 出 现在 这 个 空间 中 的 向 量 的 集合 。 因 此 ， 两 个 值 组 成 
的 向 量 在 二 维 向 量 空间 中 ， 而 3 个 值 组 成 的 向 量 在 三 维 向 量 空间 中 ， 以 此 类 推 。 

一 张 作 图 纸 或 者 图 像 中 的 像素 网 格 都 是 很 好 的 二 维 向 量 空间 。 我 们 可 以 看 到 这 些 坐 标 顺序 的 
重要 性 。 如 果 把 作 图 纸 上 表 示 位 置 的 x 坐标 和 y 坐标 倒转 ， 而 不 倒转 所 有 的 向 量 计算 ,那么 线性 
代数 问题 的 所 有 答案 都 会 翻转 。 由 于 * 坐标 和 y 坐标 互相 正 交 ， 因 此 作 图 纸 和 图 像 是 直线 空间 或 
者 欧 几 里 得 空间 的 例子 。 我 们 在 本 章 中 讨论 的 向 量 都 是 直线 空间 ， 或 者 欧 几 里 得 空间 。 

地 图 或 地 球 仪 上 的 经 纬度 算 什 么 呢 ? 地 图 或 地 球 仪 绝对 是 一 个 二 维 向 量 空间 ， 因 为 它 是 经 度 和 
纬度 两 个 数值 的 有 序列 表 。 但 是 每 个 经 纬度 对 都 描述 了 一 个 近似 球 面 、 止 凸 不 平 的 表面 ( 地 球 的 表 
面 ) 上 的 一 个 点 。 经 纬度 坐标 不 是 精确 正 交 的 ， 所 以 经 纬度 构成 的 向 量 空间 并 不 是 直线 空间 。 这 意 
味 着 我 们 计算 像 二 维 经 纬度 向 量 一 样 的 向 量 对 或 者 非 欧 几 里 得 空间 下 的 向 量 对 所 表示 的 两 点 之 间 的 
距离 或 相似 度 时 ， 必 须 十 分 小 心 。 设 想 一 下 如 何 基于 经 纬度 坐标 计算 波 特 兰 和 纽约 之 间 的 距离 。 

图 3-1 给 出 了 二 维 向 量 (5, 3) (3, 2) 和 (~1, 1) 的 一 种 图 示 方 法 。 向 量 的 头 部 (箭头 的 尖 ) 用 于 
表示 向 量 空间 中 的 一 个 位 置 。 因 此 ， 图 中 3 个 向 量 的 头 部 对 应 了 3 组 坐标 。 位置 向 量 的 尾部 (有 
向 线段 的 尾部 ) 总 是 在 坐标 原点 (0, 0)。 

如 果 是 三 维 向 量 空间 应 该 怎么 办 ? 我 们 生活 的 三 维 物理 世界 中 的 位 置 和 速度 可 以 用 三 维 向 量 的 坐 
Bx, y 2 来 表示 。 或 者 ， 由 所 有 经 度 -纬度 -高 度 三 元 组 形成 的 曲面 空间 可 以 描述 近 地 球 表面 的 位 置 。 

但 是 ， 我 们 不 仅仅 局 限于 三 维 空间 。 我 们 可 以 有 5 维 、10 维 、5000 维 等 各 种 维度 的 空间 。 
线性 代数 对 它们 的 处 理 方式 都 是 一 样 的 。 随 着 维 数 的 增加 ,我 们 可 能 需要 更 加 强大 的 算 力 。 大 家 
将 会 遇 到 所 谓 的 “ 维 数 灾难 ”“ 问 题 ， 但 是 我 们 会 到 最 后 一 章 ( 即 第 13 章 ) 再 处 理 这 个 问题 。 

对 于 自然 语言 文档 向 量 空 间 ， 向 量 空间 的 维 数 是 整个 语料库 中 出 现 的 不 同 词 的 数量 。 对 于 








































































































































































































































































































D 想 了 解 更 多 有 关 线 性 代数 和 向 量 的 知识 ， 参 考 本 书 附录 C。 

@ 大 家 需要 使 用 类 似 于 GeoPy 的 包 来 获得 数学 上 正确 的 计算 结果 。 

@ 维 数 灾难 ( curse-of-dimensionality ) 是 指 ， 随 着 维 数 的 增加 ， 向 量 之 间 的 欧 几 里 得 距离 会 呈 指 数 级 增长 。 
许多 在 10 维 或 20 维 以 上 向 量 上 的 简单 运算 变 得 不 切实 际 , 例如 根据 向 量 与 “查询 ”或 “参照 ” 向量 ( 近 
似 最 近邻 搜索 ) 的 距离 对 一 个 大 规模 的 向 量 列 表 进 行 排序 。 要 深入 理解 维 数 灾难 , 参考 维基 百科 的 “Curse 
of Dimensionality” 条 目 ， 与 本 书 的 作者 之 一 探索 超 空间 ， 使 用 Python 的 annoy 包 ， 或 者 在 谷歌 学 术 
( Google Scholar ) 中 搜索 “high dimensional approximate nearest neighbors”。 
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TF ( 和 后 面 的 TF-IDF ), 有 时 我 们 会 用 一 个 大 写字 母 K, 称 它 为 天 维 空间 。 上 述 在 语料库 中 不 同 
的 词 的 数量 也 正好 是 语料库 的 词汇 量 的 规模 ,因此 在 学 术 论文 中 ， 它 通常 被 称 为 | 四。 然后 可 以 用 
a 大 维 空间 中 的 一 个 K 维 向 量 来 描述 每 篇 文档 。 在 前 面 3 篇 关于 Harry 和 Jil 的 文档 语料库 中 ， 
= 18。 因 为 人 类 无 法 轻易 地 对 三 维 以 上 的 空间 进行 可 视 化 ， 所 以 我 们 接 下 来 把 大 部 分 的 高 维 空 
a 边 , 先 看 一 下 二 维 空间 , 这 样 我 们 就 能 在 当前 正在 阅读 的 平面 上 看 到 向 量 的 可 视 化 表示 。 
因此 , 在 图 3-2 中 , 我 们 给 出 了 18 AE Harry 和 Jill 文档 向 量 空间 的 二 维 视 图 , 此 时 天 被 简化 为 2。 





























二 维 空间 中 的 向 量 
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图 3-1 二 维 向 量 
二 维 空间 中 的 词 项 频率 向 量 
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图 3-2 ”二 维 词 项 频率 向 量 


天 维 向 量 和 一 般 向 量 的 工作 方式 是 完全 一 样 的 ， 只 是 不 太 容 易 地 对 其 进行 可 视 化 而 已 。 既 然 
现在 已 经 有 了 每 个 文档 的 表示 形式 , 并 且 知道 它们 共享 公共 空间 , 那么 接 下 来 可 以 对 它们 进行 比 
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较 。 我 们 可 以 通过 向 量 相 减 ， 然 后 计算 结果 向 量 的 大 小 来 得 到 两 个 向 量 之 间 的 欧 几 里 得 距离 ， 也 
称 为 2 范 数 距 离 。 这 是 “乌鸦 ”从 一 个 向 量 的 顶点 位 置 ( 头 ) 到 男 一 个 向 量 的 顶点 位 置 飞行 的 ( 直 
线 ) 距 离 。 读 者 可 以 查看 一 下 关于 线性 代数 的 附录 C, 了 解 为 什么 欧 几 里 得 距离 对 词 频 ( 词 项 频率 ) 
向 量 来 说 不 是 一 个 好 方法 。 

如 果 两 个 向 量 的 方向 相似 ,它们 就 “相似 ”。 它 们 可 能 具有 相似 的 大 小 (长度 ), 这 意味 着 这 
两 个 词 频 ( 词 项 频率 ) 向 量 所 对 应 的 文档 长 度 基 本 相等 。 但 是 ， 当 对 文档 中 词 的 向 量 表示 进行 相 
WEHA, 我 们 是 否 会 关心 文档 长 度 ? 恐怕 不 会 。 我 们 在 对 文档 相似 度 进行 估算 时 希望 能 够 找 
到 相同 词 的 相似 使 用 比例 。 准 确 估算 相似 度 会 让 我 们 确信 ， 两 篇 文档 可 能 涉及 相似 的 主题 。 

余弦 相似 度 仅 仅 是 两 个 向 量 夹 角 的 余弦 值 ， 如 图 3-3 所 示 ， 可 以 用 欧 几 里 得 点 积 来 计算 : 

A+ B=|A| |B| x cos © 

余弦 相似 度 的 计算 很 高 效 ， 因 为 点 积 不 需要 任何 对 三 角 函 数 求 值 。 此 外 , 余弦 相似 度 的 取 值 

范围 十 分 便于 处 理 大 多 数 机 顺 学 习 问题 : -1 到 +1。 



































二 维 空间 中 的 词 项 频率 向 量 
[ 0.20 T T T 
it doc_0 ~(0.1, 0.17) 
R 015 F 
i 
= 
部 o10b 
ono 
S 






2, doc 0 ~(0.056, 0.056) 


doc 2 ~(0.056, 0) 
1 1 
-0.05 0.00 0.05 0.10 0.15 0.20 


“harry” 的 词 项 频率 








-0.05 ^ 





图 3-3 ”二 维 向 量 的 夹 角 





在 Python 中 ， 可 以 使 用 
a.dot(b) == np.linalg.norm(a) * np.linalg.norm(b) / np.cos (theta) 
求解 cos (theta) 的 关系 ， 得 到 如 下 余 弱 相似 度 的 计算 公式 : 
Bosne 
| A|| BI 
或 者 可 以 采用 纯 Python ( 没有 numpy ) 中 的 计算 方法 ， 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 Python 中 的 余弦 相似 度 计算 





>>> import math 
>>> def cosine siml(vecl, vec2): 
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" Let's convert our dictionaries to lists for easier matching.""" 
vecl = [val for val in vecl.values() ] 
vec2 = [val for val in vec2.values() ] 


dot_prod = 0 
for i, v in enumerate(vecl): 
dot_prod += v * vec2[i] 


mag 1 = math.sqrt(sum([x**2 for x in vecl])) 
mag_2 = math.sqrt(sum([x**2 for x in vec2])) 


stele return dot_prod / (mag 1 * mag_2) 

所 以 , 我 们 需要 将 两 个 向 量 中 的 元 素 成 对 相 乘 ， 然 后 再 把 这 些 乘积 加 起 来 ,这样 就 可 以 得 到 
两 个 向 量 的 点 积 。 再 将 得 到 的 点 积 除 以 每 个 向 量 的 模 (大 小 或 长 度 )， 向 量 的 模 等 于 向 量 的 头 部 
到 尾部 的 欧 几 里 得 距离 ， 也 就 是 它 的 各 元 素平 方 和 的 平方 根 。 上 述 归 一 化 的 点 积 (normalized dot 
product ) 的 输出 就 像 余弦 函数 一 样 取 -!1 到 1 之 间 的 值 ， 它 也 是 这 两 个 向 量 夹 角 的 余弦 值 。 这 个 值 等 
于 短 向 量 在 长 向 量 上 的 投影 长 度 占 长 向 量 长 度 的 比例 ， 它 给 出 的 是 两 个 向 量 指向 同一 方向 的 程度 。 

余弦 相似 度 为 1 表示 两 个 归 一 化 向 量 完全 相同 ， 它 们 在 所 有 维度 上 都 指向 完全 相同 的 方向 。 
此 时 ， 两 个 向 量 的 长 度 或 大 小 可 能 不 一 样 , 但 是 它们 指向 的 方向 相同 。 记 住 在 计算 上 述 余弦 相似 
度 时 ， 两 个 向 量 的 点 积 除 以 每 个 向 量 的 模 的 计算 可 以 在 点 积 之 前 或 之 后 进行 。 因 此 ， 归 一 化 向 量 
在 计算 点 积 时 它们 的 长 度 都 已 经 是 1。 余弦 相似 度 的 值 越 接 近 于 1, 两 个 向 量 之 间 的 夹 角 就 越 小 。 
对 于 余弦 相似 度 接 近 于 1 的 NLP 文档 向 量 ， 我 们 知道 这 些 文档 应 该 使 用 了 比例 相近 的 相似 词 。 
因此 ， 那 些 表 示 向 量 彼 此 接近 的 文档 很 可 能 涉及 的 是 同一 主题 。 

余弦 相似 度 为 0 表示 两 个 向 量 之 间 没 有 共享 任何 分 量 。 它们 是 正 交 的 , 在 所 有 维度 上 都 互相 
EH, XF NLP 中 的 词 频 向 量 ， 只 有 当 两 篇 文档 没有 公共 词 时 才 会 出 现 这 种 情况 。 因 为 这 些 文 
档 使 用 完全 不 同 的 词 , 所 以 它们 一 定 在 讨论 完全 不 同 的 东西 。 当 然 , 这 并 不 意味 着 它们 一 定 就 有 
不 同 的 含义 或 主题 ， 而 只 表明 它们 使 用 完全 不 同 的 词 。 

余弦 相似 度 为 -1 表示 两 个 向 量 是 反 相 似 (anti-similar ) 的 ， 即 完全 相反 ， 也 就 是 两 个 向 量 指 
向 完全 相反 的 方向 。 对 于 简单 的 词 频 向 量 , 甚至 是 归 一 化 的 词 频 ( 词 项 频率 ) 向 量 (我们 稍 后 将 
讨论 )， 都 不 可 能 会 发 生 这 种 情况 。 因 为 词 的 数目 永远 不 会 是 负数 ， 所 以 词 频 ( 词 项 频率 ) 向 量 
总 是 处 于 向 量 空间 的 同一 象限 中 。 没 有 词 项 频率 向 量 可 以 偷偷 进入 其 他 向 量 尾部 后 面 的 象限 。 词 
项 频率 向 量 的 分 量 不 可 能 与 另 一 个 词 项 频率 向 量 分 量 的 符号 相反 ， 这 是 因为 频率 不 可 能 是 负数 。 

在 本 章 中 ,对 于 自然 语言 文档 的 向 量 对 , 我 们 不 会 看 到 任何 负 的 余弦 相似 度 的 值 。 但 是 在 下 
一 章 中 ,我 们 会 给 出 互相 “对 立 ” 的 词 和 主题 的 某 个 概念 ， 这 表现 为 文 档 、 词 和 主题 之 间 的 余弦 
相似 度 小 于 零 ， 其 至 等 于 -1。 


FEAR 上述 计算 余弦 相似 度 的 方法 会 带 来 一 个 有 趣 的 结果 。 如 果 两 个 向 量 或 文档 都 与 第 三 个 向 量 的 
余弦 相似 度 为 -1 ( 即 与 第 三 个 向 量 完全 相反 )， 那 么 它们 一 定 完 全 相似 ， 一 定 是 完全 相同 的 两 个 向 量 。 
但 是 ， 这 两 个 向 量 所 代表 的 文档 可 能 并 不 完全 相同 。 不 但 词 的 顺序 可 能 会 被 打 乱 ， 而 且 如 果 它 们 使 用 相 
同 词 的 比例 相同 ， 那 么 其 中 一 篇 文档 可 能 比 另 一 篇 长 得 多 。 
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后 面 , 我 们 将 针对 更 精确 地 对 文档 建 模 而 构建 文档 向 量 。 但 是 现在 , 我们 已 经 很 好 地 介绍 了 
所 需 的 工具 。 





33 ” 齐 普 夫 定 律 


现在 进入 我 们 的 主要 话题 一 一 社会 学 。 好 吧 , 不 算是 社会 学 , 但 是 我 们 很 快 进入 一 个 对 人 和 
词 进行 计数 的 世界 ,我 们 会 学 到 一 个 看 似 普遍 的 规则 , 它 决 定 着 大 多 数 事物 的 计数 结果 。 事 实证 
明 ， 在 语言 中 ， 就 像 大 多 数 涉 及 生物 体 的 事物 一 样 ， 模 式 比比 皆 是 。 

20 世纪 初 , 法 国 速 记 员 Jean-Baptiste Estoup 注意 到 , 他 在 许多 文档 中 费力 地 手工 计算 词 的 频 
率 时 ， 发 现 了 一 种 模式 〈 谢 天 谢 地 ， 现 在 我 们 有 了 计算 机 和 Python )。20 世纪 30 年 代 ， 美 国语 
言 学 家 乔治 . 金 斯 利 . 齐 普 夫 (George Kingsley Zipf ) 试图 将 Estoup 的 观察 结果 形式 化 ， 这 种 关 
系 最 终 以 齐 普 夫 的 名 字 命 名 : 


齐 普 夫 定律 (Zipfrs Law) 指出 ， 在 给 定 的 自然 语言 语料库 中 ， 任 何 一 个 词 的 频率 
与 它 在 频率 表 中 的 排名 成 反比 。 





















































一 一 维基 百科 

具体 地 说 , 这 里 的 反比 例 关系 指 的 是 这 样 一 种 情况 : 排序 列表 中 某 一 项 的 出 现 频率 与 其 在 排 
序列 表 中 的 排名 成 反比 。 例 如 ， 排 序列 表 中 的 第 一 项 出 现 的 频率 是 第 二 项 的 2 倍 ， 是 第 三 项 的 3 
倍 。 对 于 任何 语料库 或 文档 , 我 们 可 以 快速 做 的 一 件 事 就 是 , 绘制 词 的 使 用 频率 与 它们 的 频率 排 
名 之 间 的 关系 。 如 果 大 家 在 对 数 - 对 数 (log-log ) 图 中 看 到 任何 不 在 直线 上 的 离 群 值 ， 那 么 这 个 
值 就 可 能 值得 进行 研究 一 下 。 

为 了 表明 齐 普 夫 定律 不 止 可 以 用 于 文字 世界 ， 我 们 给 出 了 图 3-4， 它 展示 的 是 美国 城市 人 口 
与 该 人 口 排名 之 间 的 关系 。 事 实 表 明 , 齐 普 夫 定律 适用 于 很 多 东西 的 计数 。 自 然 界 充满 了 经 历 过 
指数 级 增长 和 网 络 效应 的 系统 ， 如 人 口 动态 、 经 济 产 出 和 资源 分 配 等 。 有 趣 的 是 ， 像 齐 普 夫 定 
律 这 么 简单 的 东西 ， 竞 然 在 许多 自然 和 人 为 现象 中 都 成 立 。 诺 贝尔 奖 得 主 保罗 ， 克 鲁 格 曼 ( Paul 
Krugman ) 在 谈 到 经 济 模型 和 齐 普 夫 定律 时 是 这 样 说 的 : 

人 们 对 经 济 理论 通常 的 抱怨 是 , 我 们 的 模型 过 于 简化 ,以 至 于 它们 对 复杂 、 混 乱 的 
现实 世界 提供 了 过 于 清晰 的 看 法 。( 使 用 齐 普 夫 定 律 说 明 的 是 ) 这 句 话 反 过 来 也 是 正确 
的 : 模型 虽然 复杂 、 混 乱 ， 但 现实 世界 却 惊 人 地 简洁 和 简单 。 

这 里 给 出 的 是 克 鲁 格 曼 的 人 口 图 的 更 新 版 本 。 
就 像 我 们 在 城市 和 社交 网 络 上 看 到 的 一 样 ,文字 也 满足 相似 的 规律 。 接 下 来 我 们 先 从 NLTK 
下 载 布朗 语料库 〈Brown Corpus ): 









































































































































D 详 见 标题 为 “There is More than a Power Law in Zipf ”的 网 页 。 
© 利用 Pandas 从 维基 百科 下 载 人 口 数据 ， 参 考 本 书 GitHub 上 的 nlpia.book.examples 代码 (src/nlpia/ 
book/examples/ch03_zipf.py ). 











3.3 FARE 


布朗 语料库 是 布朗 大 学 在 1961 年 创建 的 、 第 一 个 百 万 单词 的 英语 电子 语料库 。 该 





















































语料库 包含 来 自 500 个 不 同 数据 源 的 文本 , 这 些 数据 源 已 按 类 型 分 类 , 如 新 闻 、 社 论 等 。 
一 一 NLTK 文档 
a 
x 
长 
x 
Bud 
0 T T T T 
5.50 6.50 7.50 8.50 9.50 
人 口 对 数值 
图 3-4 城市 人 口 的 分 布 
>>> nltk.download('brown') aCe TAN 
>>> from nltk.corpus import brown 布朗 语料库 的 大 小 大 概 为 3 MB 
>>> brown.words () [:10] 
D or. ER words() 是 NLTK corpus 对 象 内 置 的 一 个 方 
'Fulton', 法 ， 它 以 字符 串 序 列 的 方式 返回 分 词 后 的 
County"; 语料库 
'Grand', 
"Jury', 
'said', 
'Priday', 
‘an', 
‘investigation', 
‘of! ] 
er tae ee ayes T 在 第 2 章 中 我 们 已 经 学 习 了 词性 标注 
[('The', 'AT'), 


('Fulton’, 'NP=TL'), 
('County', 'NN-TL'), 


('Grand', 'JJ-TL'), 

('Jury', 'NN-TL')] 
>>> len (brown.words () ) 
1161192 


因此 ， 在 有 超过 100 万 个 词 条 的 情况 下 ， 就 有 值得 一 看 的 东西 了 : 


>>> from collections import Counter 
>>> puncs = set ((',. Tp TaT Tasty Pep Tt pp PD) 
see 人 
>>> word list = (x.lower() for x in brown.words() if x not in puncs) 
>>> token_counts = Counter (word list) 
>>> token_counts.most_common (20) 
[('the', 69971), 
('of', 36412), 
('and', 28853), 
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("to 26158) 
(‘a 23195) 
(han 21337) 
('that', 10594) 
(is 10109) 
('was', 9815) 
(the 9548) 
('for', 9489) 
('it', 8760), 
('with', 7289) 
('as A253) 
("his 6996) 
(‘on 6741) 
('be 6377) 
(at. 5312) 
('by 5306) 
i 5164)] 








快速 浏览 一 下 上 述 结果 , 布朗 语料库 中 的 词 频 符 合 齐 普 夫 预 测 的 对 数 线性 关系 。“The”( 词 项 频率 
最 高 ) 出 现 的 频率 大 约 是 “of ”( 词 项 频率 次 高 ) 的 2 倍 ， 大 约 是 “and”( 词 项 频率 第 三 高 ) 的 3 倍 。 
不 信和 的话 ， 请 使 用 nlpia 包 中 的 示例 代码 (sre/nlpia/book/examples/ch03_zipfipy ) 自己 运行 一 下 试 试 。 

简 而 言 之 ， 如 果 把 语料库 的 词 按照 出 现 次 数 按 降序 排列 ， 我 们 会 发 现 : 对 一 个 足够 大 的 样本 ， 出 
现 次 数 排名 第 一 的 词 在 语料库 中 的 出 现 次 数 是 排名 第 二 的 词 的 两 倍 ， 是 排名 第 四 的 词 的 4 倍 。 因 此 ， 
给 定 一 个 大 型 语料库 , 可 以 用 上 述 数字 来 粗略 统计 给 定 词 出 现在 该 语料库 的 任何 给 定 文档 中 的 可 能 性 。 


34 主题 建 模 

现在 我 们 回 到 文档 向 量 。 词 计数 是 有 用 的 , 但 是 纯 词 计数 ， 即 使 按照 文档 的 长 度 进行 归 一 化 
处 理 , 也 不 能 告诉 我 们 太 多 该 词 在 当前 文档 相对 于 语料库 中 其 他 文档 的 重要 度 信息 。 如 果 能 弄 清 
楚 这 些 信息 , 我 们 就 能 开始 描述 语料库 中 的 文档 了 。 假设 我 们 有 一 个 收集 了 所 有 风筝 书籍 的 语 料 
库 ， 那 么 几乎 可 以 肯定 的 是 ,“Kite” 这 个 词 会 在 每 一 本 书 (文档 ) 中 出 现 很 多 次 ， 但 这 不 能 提 
供 任何 新 信息 ， 对 区 分 文档 没有 任何 帮助 。 然 而 ， 像 “construction ”或 “aerodynamics” 这 样 的 
词 可 能 不 会 在 整个 语料库 中 普遍 出 现 , 但 是 对 于 这 些 词 频繁 出 现 的 那些 文档 , 我 们 会 对 每 篇 文档 
的 本 质 有 更 多 的 了 解 。 为 此 ， 我 们 需要 另 一 个 工具 。 

道 文档 频率 ( IDF ), 在 齐 普 夫 定 律 下 为 主题 分 析 打 开 了 一 扇 新 的 窗户 。 我 们 从 前 面 的 词 项 频 
率 计数 器 开始 ,然后 对 它 进 行 扩展 。 我们 可 以 通过 两 种 方式 对 词 条 计数 并 对 它们 装 箱 处 理 : 对 每 
篇 文档 进行 处 理 或 遍历 整个 语料库 。 下 面 我 们 只 按 文 档 计数 。 

我 们 回 到 维基 百科 中 的 “Kite” 示 例 ， 并 获取 该 条 目下 的 男 一 部 分 文本 (history 部 分 )。 我 
们 下 面 假设 这 是 Kite 语料库 的 第 二 篇 文档 : 







































































Kites were invented in China, where materials ideal for kite building were readily 
available: silk fabric for sail material; fine, high-tensile-strength silk for flying line; and 


resilient bamboo for a strong, lightweight framework. 
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The kite has been claimed as the invention of the 5th-century BC Chinese philosophers 
Mozi (also Mo Di) and Lu Ban (also Gongshu Ban). By 549 AD paper kites were certainly 
being flown, as it was recorded that in that year a paper kite was used as a message for a 
rescue mission. Ancient and medieval Chinese sources describe kites being used for 
measuring distances, testing the wind, lifting men, signaling, and communication for military 
operations. The earliest known Chinese kites were flat (not bowed) and often rectangular. 
Later, tailless kites incorporated a_ stabilizing bowline. Kites were decorated with 
mythological motifs and legendary figures; some were fitted with strings and whistles to make 
musical sounds while flying. From China, kites were introduced to Cambodia, Thailand, India, 
Japan, Korea and the western world. 

After its introduction into India, the kite further evolved into the fighter kite, known as the 
patang in India, where thousands are flown every year on festivals such as Makar Sankranti. 

Kites were known throughout Polynesia, as far as New Zealand, with the assumption 
being that the knowledge diffused from China along with the people. Anthropomorphic kites 
made from cloth and wood were used in religious ceremonies to send prayers to the gods. 
Polynesian kite traditions are used by anthropologists get an idea of early “primitive” Asian 
traditions that are believed to have at one time existed in Asia. 

一 一 维基 百科 
首先 ， 我 们 得 到 语料库 中 的 每 篇 文档 ( 即 intro doc 和 history doc ) 的 总 词 频 : 


>>> from nlpia.data.loaders import kite text, kite history 

>>> kite intro = KLEE FOKE et WEE) l | $ | SA kite is taditonally 2" 
>>> intro_tokens = tokenizer.tokenize(kite_intro) 

>>> kite_history = kite_history.lower () 

>>> history_tokens = tokenizer.tokenize(kite_history) 
>>> intro_total = len(intro_tokens) 

>>> intro_total 

363 

>>> history_total = len(history_tokens) 

>>> history_total 

297 


现在 ， 有 两 篇 分 词 后 的 kite 文档 在 手 ， 我 们 看 看 “kite” 在 每 篇 文档 中 的 词 项 频率 。 我 们 将 
词 项 频率 存储 到 两 个 字典 中 ， 其 中 每 个 字典 对 应 一 篇 文档 : 
>>> intro tf = {} 


>>> history tf = {} 
>>> intro counts = Counter (intro tokens) 


“a kite is traditionally ...” 





>>> intro tf['"kite"] = intro counts[l"kite'] / introctotal 

>>> history counts = Counter (history tokens) 

>>> history_tf['kite'] = history counts['kite'] / history_total 

>>> 'Term Frequency of "kite" in intro is: {:.4f}'.format(intro_tf['kite']) 


'Term Frequency of "kite" in intro is: 0.0441' 
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>>> 'Term Frequency of "kite" in history is: {:.4f}'\ 
.format (history _tf['kite']) 
‘Term Frequency of "kite" in history is: 0.0202' 


好 了 ,我 们 看 到 了 两 个 数字 ， 即 “kite” 在 两 篇 文档 中 的 词 项 频率 ， 其 中 一 个 数字 是 另 一 个 
数字 的 两 倍 。 那 是 不 是 说 就 与 “kite” 的 相关 度 而 言 ，intro 部 分 就 是 history 部 分 的 两 倍 呢 ? 不 ， 
不 见得 。 因 此 ， 我 们 进一步 挖 气 一 下 。 我 们 先 看 看 其 他 一 些 词 如 “and” 的 词 项 频率 数字 : 











>>> intro tf['and'] = intro counts['and'] / intro total 
>>> history_tf['and'] = history_counts['and'] / history total 
>>> print ('Term Frequency of "and" in intro is: {:.4f}'\ 


. format (intro_tf['and'])) 
Term Frequency of "and" in intro is: 0.0275 
>>> print ('Term Frequency of "and" in history is: {:.4f}'\ 
-format (history _tf['and']) ) 
Term Frequency of "and" in history is: 0.0303 


KET! 我 们 发 现 ， 这 两 篇 文档 和 “and” 的 相关 度 ， 与 它们 和 “kite” 的 相关 度 相 差 不 大 。 
这 似乎 没什么 用 , 是 吧 ? 在 本 书 的 第 一 个 例子 中 ， 系 统 似 乎 认为 “the” 是 关于 Harry 的 文档 中 最 
重要 的 单词 ， 而 在 上 面 这 个 例子 中 ,“and” 也 被 认为 与 文档 高 度 相 关 。 即 使 轻 轻 一 葡 ， 我 们 也 能 
看 出 这 不 具 启 发 意义 。 

考虑 词 项 逆 文 档 频 率 的 一 个 好 方法 是 , 这 个 词 条 在 此 文档 中 有 多 稀缺 ”如 果 一 个 词 项 在 某 篇 
文档 中 出 现 很 多 次 , 但 是 却 很 少 出 现在 语料库 的 其 他 文档 中 , 那么 就 可 以 假设 它 对 当前 文档 非常 
重要 。 这 是 我 们 迈 向 主题 分 析 的 第 一 步 ! 

词 项 的 IDF 仅仅 是 文档 总 数 与 该 词 项 出 现 的 文档 数 之 比 。 在 当前 示例 中 的 “and” 和 “kite ”， 
它们 的 IDF 是 相同 的 : 

m ”文档 总 数 / 出 现 “and” 的 文档 数 = 2/2 = 1; 

m ”文档 总 数 / 出 现 “kite” 的 文档 数 = 2/2 =1; 

E 上面 两 个 词 项 的 计算 结果 意义 不 大 ， 我 们 看 看 另 一 个 词 “China”; 

E T R Sia T S 

好 了 ， 这 下 出 现 了 一 个 不 同 的 结果 。 下 面 使 用 这 种 稀缺 度 指标 来 对 词 项 频率 加 权 : 


>>> num_docs_containing_and = 0 
>>> for doc in [intro_tokens, history_tokens]: 


if 'and' in doc: 对 于 “kite” 和 “China” 类 似 


num docs containing and += 1 
接 下 来 获取 “China” 在 两 篇 文档 中 的 词 项 频率 值 : 


>>> intro tf['china'] = intro_counts['china'] / intro total 
>>> history_tf['china'] = history_counts['china'] / history_total 


最 后 ， 计 算 3 个 词 的 IDF。 我 们 就 像 存储 词 项 频率 一 样 把 IDF 存储 在 每 篇 文档 的 字典 中 : 


>>> num_docs = 2 
>>> intro_idf = {} 
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>>> history_idf = {} 


>>> intro_idf['and'] = num_docs / num_docs_containing_and 

>>> history_idf['and'] = num_docs / num_docs_containing_and 

>>> intro_idf['kite'] = num_docs / num_docs_containing_kite 

>>> history_idf['kite'] = num_docs / num_docs_containing_kite 
>>> intro_idf['china'] = num_docs / num_docs_containing_china 
>>> history_idf['china'] = num_docs / num_docs_containing_china 


然后 ， 对 文档 intro 有 : 


>>> intro_tfidf = {} 








>>> intro _tfidf['and'] = intro _tf['and'] * intro_idf['and'] 

>>> intro_tfidf['kite'] = intro_tf['kite'] * intro_idf['kite'] 

>>> intro_tfidf['china'] = intro _tf['china'] * intro_idf['china'] 

对 文档 history 有 : 

>>> history tfidf = {} 

>>> history_tfidf['and'] = history_tf['and'] * history_idf['and'] 

>>> history _tfidf['kite'] = history tf['kite'] * history_idf['kite'] 
>>> history_tfidf['china'] = history tf['china'] * history_idf['china'] 


3.4.1 回 到 齐 普 夫 定 律 


到 现在 为 止 , 我 们 差不多 可 以 正式 开始 了 。 我 们 已 经 拥有 一 个 包含 100 万 篇 文档 的 语料库 (也 
许可 以 看 成 一 个 微型 Google )， 有 人 搜索 “cat” 这 个 词 ， 在 上 述 100 万 篇 文档 中 ， 只 有 一 篇 文档 
包含 “cat”"。 那 么 这 个 词 的 原始 或 原生 IDF 为 

1 000 000 / 1 = 1 000 000 
假设 有 10 篇 文档 包含 “dog”， IBA “dog” MY IDF 为 

1 000 000 / 10 = 100 000 

上 述 两 个 结果 显著 不 同 。 齐 普 夫 会 说 上 面 的 差距 太 大 了 ， 因 为 这 种 差距 可 能 会 经 常 出 现 。 齐 
普 夫 定律 表明 ， 当 比较 两 个 词 如 “cat” 和 “dog” 的 词 频 时 ， 即 使 它们 出 现 的 次 数 类 似 ， 更 频繁 
出 现 的 词 的 词 频 也 将 指数 级 地 高 于 较 不 频繁 出 现 的 词 的 词 频 。 因 此 ， 齐 普 夫 定律 建议 使 用 对 数 
log () (exp O 的 逆 函 数 ) 来 对 词 频 ( 和 文档 频率 ) 进行 尺度 的 缩放 处 理 。 这 就 能 够 确保 像 “cat” 
和 “dog” 这 样 的 词 ， 即 使 它们 出 现 的 次 数 类 似 ， 在 最 后 的 词 频 计 算 结 果 上 也 不 会 出 现 指 数 级 的 
差异 。 此 外 ， 这 种 词 频 的 分 布 将 确保 TF-IDF 分 数 更 加 符合 均匀 分 布 。 因 此 ， 我 们 应 该 将 IDF 重 
新 定义 为 词 出 现在 某 篇 文档 中 原始 概率 的 对 数 。 对 于 词 项 频率 ,我 们 也 会 进行 对 数 处 理 "。 

对 数 函 数 的 底 并 不 重要 ,因为 我 们 只 想 使 频率 分 布 均匀 , 而 不 是 将 值 限定 在 特定 的 数值 范围 
内 进行 缩放 ”。 如 果 用 一 个 以 10 为 底 的 对 数 函数 ， 我 们 会 得 到 : 





















































( Gerard Salton and Chris Buckley 在 他 们 的 论文 “Term Weighting Approaches in Automatic Text Retrieval” 
中 第 一 次 展示 了 对 数 缩放 在 信息 检索 中 的 作用 。 
@ 后 面 我 们 会 看 到 如 何 将 已 经 过 对 数 缩放 处 理 的 TF-IDF 值 进行 向 量 的 归 一 化 处 理 。 
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search: cat 

idf = log(1 000 000/1) = 6 
search: dog 

idf = log(1 000 000/10) = 5 


所 以 现在 要 根据 它们 在 语言 中 总 体 出 现 的 次 数 ， 对 每 一 个 TF 结果 进行 适当 的 加 权 。 
最 终 ， 对 于 语料库 D 中 给 定 的 文档 4 里 的 词 项 :， 有 : 




















:在 4 中 出 现 的 次 数 
Ha 4 的 长 度 
文档 数 
Idi, D) = los 有 含 /的 文档 数 


tfidftt, d, D) = tf(t, d) x idf(t, D) 


因此 ， 一 个 词 在 文档 中 出 现 的 次 数 越 多 ， 它 在 文档 中 的 TF ( 进而 TF-IDF ) 就 会 越 高 。 与 此 同时 ， 
随 着 包含 该 词 的 文档 数 增 加 ， 该 词 的 IDF (进而 TF-IDF ) 将 下 降 。 现 在 ， 我 们 有 了 一 个 计算 机 可 
以 处 理 的 数字 。 但 这 个 数字 到 底 是 什么 呢 ? 它 将 特定 的 词 或 词 条 与 特定 语料库 中 的 特定 文档 关联 起 
来 ， 然 后 根据 该 词 在 整个 语料库 中 的 使 用 情况 ， 为 该 词 在 给 定 文档 中 的 重要 度 赋予 了 一 个 数值 。 
在 一 些 课程 中 ， 所 有 的 计算 都 在 对 数 空间 中 进行 ， 这 样 乘法 就 变 成 加 法 ， 除 法 就 变 成 减法 : 
某 个 词 项 出 现在 某 篇 文档 中 



































的 对 数 概率 某 个 具体 词 项 在 文档 中 至 少 出 现 一 次 的 
>>> log tf = log(term_occurences_in_doc) -\ 对 数 概 率 的 对 数 ， 前 一 个 对 数 用 于 对 


IDF 线性 化 抵消 齐 普 夫 定律 的 影响 ) 








log (num terms_ in doc) 
>>> log log idf = log(log(total_num_docs) -\ 








P log (num_docs_containing_term) ) < 

>>> log_tf_idf = log tf + log_idf 
TF-IDF 的 对 数 是 TF 和 IDF 乘积 的 对 数 ， 
或 者 词 频 、IDF 各 自 求 对 数 后 求 和 

















TF-IDF 这 个 独立 的 数字 ， 是 简单 搜索 引擎 的 简陋 的 基础 。 随 着 我 们 已 经 坚实 地 从 文本 领域 
进入 数字 领域 ， 是 时 候 进行 一 些 数 学 处 理 了 。 在 计算 TF-IDF 时 ， 我 们 可 能 永远 不 需要 实现 前 面 
的 公式 。 线 性 代数 对 于 全 面 理解 自然 语言 处 理 中 使 用 的 工具 并 不 是 必需 的 , 但 是 大 体 上 熟悉 公式 
的 工作 原理 可 以 使 它们 的 使 用 更 加 直观 。 









































3.4.2 ”相关 度 排序 


正如 在 前 面 看 到 的 那样 , 我 们 可 以 很 容易 地 比较 两 个 向 量 来 得 到 它们 的 相似 度 。 然而 我 们 也 
已 经 了 解 到 ， 仅 仅 对 词 计数 并 不 像 使 用 它们 的 TF-IDF 那样 具有 可 描述 性 。 因 此 ， 在 每 个 文档 向 
量 中 ,我 们 用 词 的 TR-IDF 替换 TF。 现 在, 向量 将 更 全 面 地 反映 文档 的 含义 或 主题 ， 如 下 面 这 个 
Harry 示例 所 示 : 
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我 们 必须 对 zero_vector 进 行 复制 以 创建 一 
>>> document_tfidf_vectors = [] 个 新 的 独立 的 对 象 。 和 否则 ， 最 终 每 次 在 循 
>>> for doc in docs: 环 中 都 会 重 写 同 一 对 象 /向 量 
vec = copy.copy(zero_vector) < 





tokens = tokenizer.tokenize(doc.lower() 
token_counts = Counter (tokens) 


for key, value in token_counts.items(): 
docs_containing_key = 0 
for _doc in docs: 
if key in _doc: 
docs_containing_key += 1 
tf = value / len(lexicon) 
if docs_containing_key: 
idf = len(docs) / docs_containing_key 
else: 
idf = 0 
vec[key] = tf * idf 
document_tfidf_vectors.append (vec) 


在 上 述 设 置 下 ， 我 们 就 得 到 了 语料库 中 每 篇 文档 的 维 向 量 表示 。 现 在 去 打 狂 吧 ! 在 这 里 也 
就 是 搜索 的 意思 。 在 给 定 的 向 量 空间 中 ,如 果 两 个 向 量 有 相似 的 角度 ， 可 以 说 它们 是 相似 的 。 想 
象 一 下 , 每 个 向 量 从 原点 出 发 , 到 达 它 规定 的 距离 和 方向 , 那些 以 相同 角度 到 达 的 向 量 是 相似 的 ， 
即使 它们 没有 到 达 相 同 的 距离 。 

如 果 两 个 向 量 的 余弦 相似 度 很 高 , 那么 它们 就 被 认为 是 相似 的 。 因 此 ,如 果 最 小 化 余弦 相似 
度 ， 就 可 以 找到 两 个 相似 的 向 量 : 



























































os = ae 
| A||B| 
现在 , 我 们 已 经 有 了 进行 基本 TF-IDF 搜索 的 所 有 东西 。 我 们 可 以 将 搜索 查询 本 身 视 为 文档 ， 
从 而 获得 它 的 基于 TF-IDF 的 向 量 表示 。 最 后 一 步 是 找到 与 查询 余弦 相似 度 最 高 的 向 量 的 文档 ， 
并 将 这 些 文档 作为 搜索 结果 返回 。 
如 果 我 们 的 语料库 由 关于 Harry 的 3 篇 文档 组 成 ， 而 查询 是 “How long does it take to get to the 
store?”， 如 下 所 示 : 


























>>> query = "How long does it take to get to the store?" 

>>> query vec = copy.copy (zero vector) 

>>> query vec = copy.copy (zero vector) ER Beles 
copycopy0 确 保 对 独立 的 对 象 进行 处 
H, 而 不 是 多 个 指向 同一 个 对 象 的 引用 


>>> tokens = tokenizer.tokenize (query. lower () 
>>> token_counts = Counter (tokens) 


>>> for key, value in token_counts.items(): 
docs_containing_key = 0 
for _doc in documents: 
if key in _doc.lower(): 
docs_containing_key += 1 
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if docs_containing_key == 0: Blac Sheela 
continue 因此 定位 到 下 一 个 键 





tf = value / len(tokens) 
idf = len(documents) / docs_containing_key 
query_vec[key] = tf * idf 
>>> cosine_sim(query_vec, document_tfidf_vectors[0]) 
0.5235048549676834 
>>> cosine_sim(query_vec, document_tfidf_vectors[1]) 
0.0 
>>> cosine_sim(query_vec, document_tfidf_vectors[2]) 
0.0 


我 们 可 以 比较 负责 任 地 说 , 对 于 当前 查询 , 文档 0 的 相关 度 最 高 ! 通过 这 种 方式 我 们 可 以 在 
任何 语料库 中 寻找 相关 的 文档 ,无论 是 维基 百科 的 文章 、 古 腾 堡 图 书 ， 还 是 来 自 Twitter 的 推 文 。 
看 上 去 谷歌 应 该 担心 我 们 这 个 小 搜索 引擎 的 竞争 ! 

事实 上 ， 谷 歌 的 搜索 引擎 是 安全 的 ， 完 全 不 害怕 我 们 的 竞争 。 对 每 个 查询 而 言 ， 都 必须 对 所 
有 TF-IDF 向 量 进行 “索引 扫描 ”。 这 是 一 个 复杂 度 为 O(N) 的 算法 。 由 于 使 用 了 个 排 索引 ， 大 多 
数 搜索 引擎 可 以 在 常数 时 间 (OC) ) 内 响应 。 我 们 不 打算 在 这 里 实现 一 个 可 以 在 常数 时 间 内 找到 
这 些 匹配 项 的 索引 ， 但 是 如 果 大 家 对 此 感 兴趣 ， 可 以 去 探索 Whoosh 包 及 其 源码 中 最 先进 的 
Python 实现 。 第 4 章 中 , 我 们 不 介绍 如 何 构建 这 个 传统 的 基于 关键 词 的 搜索 引擎 ,而 是 给 出 捕获 
文本 含义 的 最 新 语义 索引 方法 。 

提示 在 前 面 的 代码 中 ， 我 们 去 掉 了 词 库 中 没有 找到 的 键 ， 以 避免 零 除 错误 。 但 是 更 好 的 方法 是 ， 
每 次 计算 IDF 时 分 母 都 加 1， 这 样 可 以 确保 分 母 不 为 0。 事实 上 ， 这 种 称 为 加 法 平滑 ( 拉 普 拉 斯 平 
H) “的 方法 通常 会 改进 基于 TF-IDF 关键 词 搜索 的 搜索 结果 。 


关键 词 搜索 只 是 NLP 流水 线 中 的 一 个 工具 ， 而 我 们 的 目标 是 建立 一 个 聊天 机 器 人 。 然 而 ， 大 多 数 
聊天 机 器 人 高 度 依赖 搜索 引擎 。 并 且 ， 一 些 聊天 机 器 人 完全 依赖 搜索 引擎 ， 将 它 作 为 生成 回复 的 唯一 
算法 。 我 们 需要 采取 额外 的 步骤 来 将 简单 搜索 索引 ( TF-IDF ) 转换 为 聊天 机 器 人 。 我 们 需要 将 “问题 
( 即 句 子 ) -回复 ”对 形式 的 训练 数据 存储 起 来 。 然 后 ,就 可 以 使 用 TF-IDF 搜索 与 用 户 输入 的 文本 最 相 
似 的 问题 ( 即 句 子 ) 这 里 我 们 不 返回 数据 库 中 最 相似 的 语句 ， 而 是 返回 与 该 语句 关联 的 回复 。 就 像 任 
何 环 手 的 计算 机 科学 问题 一 样 ， 我 们 的 问题 可 以 通过 加 入 一 个 间接 层 来 解决 。 然 后 ， 就 可 以 聊天 了 ! 
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3.4.3 工具 


很 久 以 前 搜索 就 已 经 自动 化 处 理 ， 有 很 多 相关 的 实现 代码 。 我 们 也 可 以 使 用 scikit-learn 包 ” 
找到 与 上 一 节 结 果 相 同 的 快速 路 径 。 如 果 还 没有 使 用 附录 A 来 设置 环境 ， 以 便 包 含 scikit-learn, 




















D 详 见 标题 为 “Inverted index” 的 网 页 。 

© 详 见 标题 为 “Whoosh” 的 网 页 。 

®© 详 见 标题 为 “GitHub - Mplsbeb/whoosh: A fast pure-Python search engine” 的 网 页 。 
@ 详 见 标题 为 “Additive smoothing” 的 网 页 。 

© 详 见 标题 为 “scikit-learn: machine learning in Python” 的 网 页 。 
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可 以 用 下 面 的 方法 来 安装 它 : 


pip install scipy 
pip install sklearn 


下 面 介绍 如 何 使 用 sklearn 来 构建 TF-IDF 和 矩阵。sklearn TF-IDF 类 是 一 个 包含 .fit () 
和 .transform() 方 法 的 模型 ， 这 些 方法 遵循 所 有 机 器 学 习 模 型 的 sklearn API: 
姑 为 大 多 数 文档 只 使 用 词汇 表 中 所 有 词 的 一 小 部 分 ， 所 以 TF-IDF 和 矩阵 的 大 部 
分 元 素 都 是 零 ， 因 此 TFIDFVectorizer 模型 会 生成 一 个 稀 琉 的 numpy 和 矩阵 


>>> from sklearn.feature_extraction.text import TfidfVectorizer 
>>> corpus = docs 
>>> vectorizer = TfidfVectorizer (min _df=1) 















































>>> model = vectorizer.fit_transform(corpus) < 
>>> print (model.todense() .round (2)) < 
[[0.16 0. 0.48 0.21 0.21 0. 0225 0-21: 0. 0 . 0. o2 L0; 0.64 

0.21 0,21) 

(Osa Os 0.357 40s 0 . 0.357 0.29.0: 0237-0237 “0. 0. 0.49 0. 

0. ozy] 

[Os 07S 10.6 0. 0. 0.29: 10.222. 10%. 0.29 0.29 0.38 0. 0. 0. 

0. 0. J] 


HEEE, todense() TTF Fi i HE EE 
换 回 常规 的 numpy HEME (H 0 填充 空格 ) 



































利用 scikit-learn, 我 们 在 上 面 的 4 行 代码 中 创建 了 一 个 由 3 个 文档 组 成 的 矩阵 ， 以 及 词 
库 中 每 个 词 项 的 逆 文 档 频 率 。 现 在 有 一 个 表示 3 个 文档 ( 矩阵 的 3 行 ) 的 矩阵 (实际 上 是 Python 
中 的 列表 构成 的 列表 )。 词 库 中 每 个 词 项 、 词 条 或 词 的 TF-IDF 构成 矩阵 的 列 (或 者 同样 说 是 每 一 行 
的 索引 )。 因 为 分 词 方 式 不 同 ， 而 且 去 掉 了 标点 符号 (原文 有 一 个 去 号 和 一 个 句号 )， 所 以 词 库 中 只 
有 16 个 词 项 。 对 大 规模 文本 而 言 ， 这 种 或 其 他 一 些 预 优化 的 TF-IDF 模型 将 为 我 们 省 去 大 量 工作 。 









































3.44 其 他 工具 


几 十 年 来 ，TF-IDF 矩阵 ( 词 项 -文档 矩阵 ) 一 直 是 信息 检索 (搜索 ) 的 主流 。 因 此 ， 研 究 人 
员 和 企业 花费 了 大 量 时 间 来 优化 IDF 部 分 , 以 提高 搜索 结果 的 相关 性 。 表 3-1 列 出 了 一 些 可 以 归 
一 化 和 平滑 词 项 频率 权重 的 方案 。 





表 3-1 其 他 TF-IDF 归 一 化 方法 








方案 定义 
None w= Si 
N 
TF-IDF w; = log(f;,) x log re 
j 











D &% Piero Molino 在 AI with the Best 2017 上 的 报告 “Word Embeddings Past, Present and Future”. 
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续 表 
方案 定义 
N 
TF-ICF w; =log(f;,) x log] 一 
Íi 
F N-n, +05 
"= fe F408 
Okapi BM25 0.5 Phe dy i i 
Ji 
J 
N 
max, l 
ATC Wy f = 
>" | | 0.5+0.5x—* llog 
fal max, 
N 
(log(f,) +1.0)log (z) 
LTU w, = hi 
0.8+0.2x f, xZ 
Í; 
MI w, = TRS A 1) 
P(t, )Ple,) 
PosMI w, = max(0, MI) 
a pa aR 
“Tes y; 
i [P(t,)P(c;) 
x 参见 James Richard Curran 的 From Distributional to Semantic Similarity 的 4.3.5 节 
Lin98 ye 
in98a = 
y Í, xf, 
. n, 
Lin98b w, =—1x logs, 
log f, +1 
Gref94 Wj =———_ 
logn, +1 











搜索 引擎 (信息 检索 系统 ) 在 查询 和 语料库 中 的 文档 之 间 匹 配 关 键 词 〈 词 项 )。 如 果 正 在 构 














Piero Molino 描述 的 替代 方案 (ZILK 3-1 )。 








的 变 体 BM25F。 











建 一 个 搜索 引擎 ,并 且 和 希望 提供 可 能 与 用 户 所 需 内 容 匹 配 的 文档 , 那么 大 家 应 该 花 一 些 时 间 研 究 





直接 使 用 TF-IDF 余弦 距离 对 查询 结果 进行 排序 的 一 种 兰 代 方 法 是 Okapi BM25 ,或 者 其 最 新 
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3.4.5 Okapi BM25 


伦敦 城市 大 学 的 聪明 人 想 出 了 一 个 更 好 的 方法 来 给 搜索 结果 排序 。 除 了 计算 TF-IDF 余弦 相 
似 度 ,他们 还 对 相似 度 进行 了 归 一 化 和 平滑 人 处理 。 他 们 还 忽略 了 查询 文档 中 词 项 的 重复 出 现 ， 从 
而 有 效 地 将 查询 向 量 的 词 频 都 简化 为 1。 这 里 , 余弦 相似 度 的 点 积 不 是 根据 TF-IDF 向 量 的 模 ( 文 
档 和 查询 中 的 词 项 数 ) 进行 归 一 化 ， 而 是 由 文档 长 度 本 身 的 一 个 非 线性 函数 进行 归 一 化 : 


q_idf “dot(td tf, dtf[i]) * 1.5 / 
(dot (gq tf, d tf[i]) + .25 + .75 * d num words[i] / d_num_words.mean())) 


通过 选择 给 用 户 提供 最 相关 结果 的 权重 方案 ,我们 可 以 优化 流水 线 。 但 是 ,如 果 所 处 理 的 语 
料 库 不 是 太 大 , 可 以 考虑 和 我 们 一 起 继续 往 下 探索 , 对 词 和 文档 的 含义 进行 更 有 用 和 更 准确 的 表 
示 。 在 后 续 章 节 中 , 我 们 将 介绍 如 何 实现 一 个 语义 搜索 引擎 , 该 引擎 可 以 找到 与 查询 中 的 词 含 义 
相似 的 文档 ， 而 不 只 是 使 用 与 查询 中 相同 词 的 文档 。 相 比 于 TF-IDF 加 权 、 词 干 还 原 和 词 形 归并 
所 希望 达到 的 目标 ,语义 搜索 要 好 很 多 。Google 和 Bing 以 及 其 他 网 络 搜索 引擎 不 使 用 语义 搜索 
方法 的 唯一 原因 是 它们 的 语料库 太 大 。 词 和 主题 的 语义 向 量 不 会 扩展 到 数 十 亿 篇 文档 , 但 是 数 百 
万 篇 文档 还 是 不 成 问题 的 。 

因此 ， 我 们 只 需要 将 最 基本 的 TF-IDF 向 量 输入 流水 线 中 ， 对 语义 搜索 、 文 档 分 类 、 对 话 系 
统 和 在 第 1 章 中 提 到 的 大 多 数 其 他 应 用 来 说 ， 我 们 就 可 以 获得 目前 最 强 的 性 能 。TF-IDF 是 流水 
线 中 的 第 一 个 阶段 ， 是 从 文本 中 提取 的 最 基本 的 特征 集 。 在 下 一 章 中 ,我 们 将 从 TF-IDF 向 量 计 
算 主题 向 量 。 相 比 于 上 述 这 些 经 过 仔细 归 一 化 和 平滑 处 理 的 任何 TF-IDF 向 量 ， 主 题 向 量 更 能 
示 词 袋 内 容 的 语义 。 当 我 们 在 第 6 章 学 习 Word2vec 词 向 量 以 及 在 后 续 章 节 中 学 习 词 和 文档 含义 
的 神经 网 络 符 入 时 ， 人 情况 会 变 得 更 好 。 




































































3.4.6 ”未 来 展望 

在 把 自然 语言 的 文本 转换 成 数值 之 后 , 我 们 就 可 以 开始 处 理 它们 ,并 用 它们 来 计算 。 我 们 将 
数值 牢 牢 掌握 在 手中 , 在 下 一 章 中 , 我 们 将 对 这 些 数值 进行 进一步 改进 ， 以 尝试 表示 自然 语言 文 
本 的 含义 或 主题 ， 而 不 仅仅 是 词 本 身 。 


























3.5 小 结 
E 任何 具有 毫秒 级 响应 时 间 的 Web 级 搜索 引擎， 其 背后 都 具有 TF-IDF 词 项 文档 矩阵 的 强 
大 力量 。 

















加 词 项 频率 必须 根据 其 逆 文 档 频 率 加 权 ， 以 确保 最 重要 、 最 有 意义 的 词 得 到 应 有 的 权重 。 

齐 普 夫 定律 可 以 帮助 我 们 预测 各 种 事物 的 频率 ， 包 括 词 、 字 符 和 人 物 。 

E TF-IDF 词 项 -文档 矩阵 的 行 可 以 用 作 表 示 单 个 词 含义 的 向 量 ， 从 而 创建 词语 义 的 向 量 空 
间 模 型 。 
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在 大 多 数 NLP 应 用 中 ， 高 维 向 量 对 之 间 的 欧 几 里 得 距离 和 相似 度 不 能 充分 代表 它们 之 


间 的 相似 度 。 








余弦 距 离 ， 即 向 量 之 间 的 重合 度 ， 可 以 将 归 一 化 向 量 的 元 素 相 乘 后 下 








将 乘积 相 加 ， 从 而 





实现 高 效 的 计算 。 
余弦 距离 是 大 多 数 自然 语言 向 量 表示 的 相似 度 计算 方法 。 
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本 章 主 要 内 容 

图 分 析 语 义 ( 意义 ) 以 构建 主题 向 量 

E 利用 主题 向 量 之 间 的 相似 度 来 进行 语义 搜索 
图 大 规模 语料库 上 可 扩展 的 语义 分 析 及 语义 搜索 
E 在 NLP 流水 线 中 将 语义 成 分 (主题 ) 用 作 特 征 
E 高 维 向 量 空间 的 处 理 





到 目前 为 止 , 大 家 已 经 学 会 了 不 少 自然 语言 处 理 的 技巧 。 但 现在 可 能 是 我 们 第 一 次 能 够 做 一 
点 儿 神 奇 工作 的 时 机 。 这 也 是 我 们 第 一 次 谈 到 机 器 能 够 理解 词 的 意义 。 

第 3 章 中 的 TF-IDF 向 量 ( 词 项 频率 - 逆 文 档 频率 向 量 ) 帮助 我 们 估算 了 词 在 文本 块 中 的 重要 
度 。 我 们 使 用 了 TF-IDF 向 量 和 和 矩阵 来 表明 每 个 词 对 于 文档 集合 中 一 小 段 文本 总 体 含 义 的 重要 度 。 

这 些 TF-IDF“ 重 要 度 ” 评 分 不 仅 适 用 于 词 ， 还 适用 于 多 个 词 构成 的 短 序列 ( n-gram )。 如 果 
知道 要 查找 的 确 分 词 或 n-gram， 这 些 n-gram 的 重要 度 评分 对 于 搜索 文本 非常 有 用 。 

过 去 的 NLP 实验 人 员 发 现 了 一 种 揭示 词组 合 的 意义 的 算法 ， 该 算法 通过 计算 向 量 来 表示 上 
述 词组 合 的 意义 。 它 被 称 为 潜在 语义 分 析 (latent semantic analysis, LSA )。 当 使 用 该 工具 时 , 我 
们 不 仅 可 以 把 词 的 意义 表示 为 向 量 ， 还 可 以 用 向 量 来 表示 整 篇 文档 的 意义 。 

在 本 章 中 , 我 们 将 学 习 这 些 语义 或 主题 向 量 。 我 们 将 使 用 TF-IDF 向 量 的 加 权 频 率 得 分 来 计 
算 所 谓 的 主题 得 分 , 而 这 些 得 分 构成 了 主题 向 量 的 各 个 维度 。 我 们 将 使 用 归 一 化 词 项 频率 之 间 的 
关联 来 将 词 归并 到 同一 主题 中 ， 每 个 归并 结果 定义 了 新 主题 向 量 的 一 个 维度 。 

这 些 主题 向 量 会 帮助 我 们 做 很 多 十 分 有 趣 的 事情 。 它们 使 基于 文档 的 意义 来 搜索 文档 成 为 可 
能 ， 这 称 为 语义 搜索 。 在 大 多 数 情况 下 ， 语 义 搜索 返回 的 搜索 结果 比 用 关键 词 搜索 (TF-IDF 搜 
索 ) 要 好 得 多 。 有 时 候 ， 即 使 用 户 想 不 出 正确 的 词 来 进行 查询 ,语义 搜索 返回 的 也 正 是 他 们 所 需 














































































































D 在 本 章 介绍 主题 分 析 时 ， 我 们 使 用 术语 “主题 向 量 ”(topic vector )。 在 第 6 章 介 绍 Word2Vec 时 ， 我 们 使 用 
术语 “ 词 向 量 ”( word vector )。 在 正式 的 NLP 教科 书 中 ， 如 Jurafsky 和 Martin HES AY NLP 圣经 ， 使 用 的 是 


主题 向 量 "。 而 “Semantic Vector Encoding and Similarity Search” 使 用 的 是 “语义 向 量 ”( semantic vector )。 
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要 的 文档 。 

同时 , 我 们 可 以 使 用 这 些 语义 向 量 来 识别 那些 最 能 代表 语句 、 文 档 或 语料库 ( 文档 集合 ) 的 
主题 的 词 和 n-gram, 有 了 这 个 词 向 量 和 词 之 间 的 相对 重要 度 , 我 们 就 可 以 向 用 户 提 供 文 档 中 最 有 
意义 的 词 ， 即 那些 能 够 概括 文档 意义 的 一 组 关键 词 。 

现在 ,我 们 可 以 比较 任意 两 个 语句 或 文档 ， 并 给 出 它们 在 意义 上 的 接近 程度 。 

提示 术语 topic, semantic 和 meaning 上 共有 相似 的 含义 ， 在 讨论 NLP 时 往往 可 以 互 换 使 用 。 在 本 

章 中 ， 我 们 将 学 习 如 何 构 建 一 个 NLP 流水 线 ， 它 可 以 自己 找 出 这 类 同义词 。 该 流水 线 甚 至 可 以 找 

到 短语 “figure it outf” 和 词 “compute” 在 意义 上 的 相似 性 。 当 然 ， 机 器 只 能 “计算 ”意义 ， 而 不 能 

“理解 ”意义 。 


大 家 很 快 就 会 看 到 ， 构 成 主题 向 量 每 一 维 的 词 的 线性 组 合 是 非常 强大 的 意义 表示 方法 。 





























41 从 词 频 到 主题 得 分 


我 们 已 经 知道 如 何 计 算 词 语 的 频率 , 还 知道 如 何在 TF-IDF 向 量 或 矩阵 中 给 词 的 重要 度 打分 。 
但 这 还 不 够 ， 因 为 我 们 想 要 给 这 些 词 所 要 表达 的 意义 和 主题 打分 。 





4.1.1 TF-IDF 向 量 及 词 形 归并 


TF-IDF 向 量 会 对 文档 中 词 项 的 准确 拼写 形式 进行 计数 。 因 此 ， 如 果 表 达 相 同 含义 的 文本 使 
用 词 的 不 同 拼写 形式 或 使 用 不 同 的 词 ， 将 会 得 到 完全 不 同 的 TF-IDF 向 量 表示 。 这 会 使 依赖 词 条 
计数 的 搜索 引 敬 和 文档 相似 性 的 比较 变 得 乱七八糟。 

在 第 2 章 中 , 我 们 对 词尾 进行 了 归 一 化 处 理 , 使 那些 仅仅 最 后 几 个 字符 不 同 的 词 被 归并 到 同 
一 个 词 条 。 我 们 使 用 了 归 一 化 方法 〈 如 词 干 还 原 和 词 形 归 并 ) 来 创建 拼写 相似 、 含 义 通常 也 相似 
的 小 型 的 词 集合 。 我 们 用 这 些 词 集合 的 词 元 或 词 干 来 标记 这 些小 型 的 词 集合 , 然后 处 理 这 些 新 的 
词 条 而 不 是 原始 词 。 

上 述 分 析 中 ， 词 形 归并 的 方法 将 拼写 相似 的 词 放 在 一 起 ， 但 是 这 些 词 的 意义 不 一 定 相似 。 
显然 ， 它 无 法 成 功 处 理 大 多 数 同义词 对 ,也 无 法 将 大 多 数 同 义 词 配对 。 同 义 词 的 区 别 通常 不 仅仅 
是 词 形 归并 和 词 干 还 原 处 理 的 词尾 不 同 。 更 糟糕 的 是 , 词 形 归 并 和 词 干 还 原 有 时 会 错误 地 将 反 义 
词 〈 即 意思 相反 的 词 ) 归并 在 一 起 。 

上 述 词 形 归 并 最 终 造 成 的 结果 是 ， 在 我 们 得 到 的 TF-IDF 向 量 空间 模型 下 ， 如 果 两 段 文 本 讨 
论 的 内 容 相 同 ， 但 是 使 用 了 不 同 的 词 ， 那 么 它们 在 此 空间 中 不 会 “接近 ”。 而 有 时 ， 两 个 词 形 归 
并 后 的 TF-IDF 向 量 虽然 相互 接近 ， 但 在 意义 上 根本 不 相似 。 即 使 是 第 3 章 中 给 出 的 最 先进 的 














































































































































































































D 词 干 还 原 和 词 形 归 并 都 会 去 掉 或 者 改变 词尾 ( 词 最 后 的 几 个 字符 ) 和 前 绥 。 使 用 编辑 距离 计算 来 识别 拼 
写 相 似 〈 误 拼写 ) 的 词 会 更 好 。 
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TF-IDF 相似 度 评分 方法 , 如 Okapi BM25 或 余弦 相似 度 , 也 无 法 连接 这 些 同义词 或 分 开 这 些 反 义 
i, 具有 不 同 拼写 形式 的 同义词 所 产生 的 TF- IDF 向 量 在 向 量 空间 中 彼此 并 不 接近 。 

例如 ， 本 章 中 的 TF-IDF 向 量 ， 可 能 与 大 学 教材 中 有 关 洪 在 语义 索引 的 相似 意义 的 段落 一 点 
儿 也 不 接近 ,而 这 正 是 本 章 所 关注 的 内 容 。 但 我 们 在 本 章 中 使 用 现代 和 口语 化 的 术语 ， 而 教授 和 
研究 人 员 在 教科 书 和 讲座 中 会 使 用 更 一 致 、 更 严谨 的 语言 。 此 外 , 教授 们 在 十 年 前 使 用 的 术语 体 
系 很 可 能 随 着 过 去 几 年 的 快速 发 展 而 有 所 演变 。 例 如 ,在 过 去 术语 “潜在 语义 索引 ” 比 现在 使 用 
的 “潜在 语义 分 析 ” 更 流行 。 




















41.2 ”主题 向 量 


当 我 们 对 TF-IDF 向 量 ( 如 加 、 减 法 ) 进行 数学 运算 时 ， 这 些 和 与 差 告诉 我 们 的 只 是 参 
算 的 向 量 表示 的 文档 中 词 的 使 用 频率 。 上 述 数 学 运算 并 没有 告诉 我 们 这 些 词 背后 的 含义 。 通 
TF-IDF 矩阵 与 其 自身 相 乘 ， 可 以 计算 词 与 词 的 TF-IDF 向 量 ( 词 共 现 或 关联 向 量 )。 但 是 利用 这 
些 稀 踊 的 高 维 向 量 进行 “向 量 推理 ”效果 并 不 好 。 这 是 因为 当 我 们 将 这 些 向 量 相 加 或 相 减 时 ， 它 
们 并 不 能 很 好 地 表示 一 个 已 有 的 概念 、 词 或 主题 。 

因此 ， 我 们 需要 一 种 方法 来 从 词 的 统计 数据 中 提取 一 些 额 外 的 信息 ， 即 意义 信息 。 我 们 需要 更 
好 地 估算 文档 中 的 词 到 底 意味 着 什么 ， 也 需要 知道 这 些 词 的 组 合 在 一 篇 具体 的 文档 中 意味 着 什么 。 
我 们 想 用 一 个 像 TF-IDF 一 样 的 向 量 来 表示 意义 ， 但 是 需要 这 个 向 量 表示 更 紧凑 、 更 有 意义 。 

我 们 称 这 些 紧凑 的 意义 向 量 为 “ 词 -主题 向 量 ”( word-topic vector ), 称 文档 的 意义 向 量 为 “ 文 
档 - 主 题 向 量 ”( document-topic vector )。 上 述 两 种 向 量 都 可 以 称 为 “主题 向 量 ”， 只 要 我 们 清楚 主 
题 向 量 所 表示 的 对 象 到 底 是 词 还 是 文档 。 

这 些 主题 向 量 可 以 很 紧凑 ,也 可 以 像 我 们 想 要 的 那样 高 维 。LSA 主题 向 量 可 以 少 到 只 有 一 维 ， 
也 可 以 多 到 有 数 千 维 。 

我 们 可 以 像 对 其 他 向 量 一 样 对 本 章 的 主题 向 量 进行 加 减 运算 。 只 是 这 里 得 到 的 向 量 和 与 向 量 
225 TF-IDF 向 量 (第 3 章 ) 相 比 ， 意 味 着 更 多 的 东西 。 同 时 ， 主 题 向 量 之 间 的 距离 对 于 文档 聚 
类 或 语义 搜索 之 类 的 任务 很 有 用。 以 前 ， 我 们 可 以 使 用 关键 词 和 TF-IDF 向 量 进行 聚 类 和 搜索 。 
而 现在 ， 我 们 可 以 使 用 语义 和 意义 来 进行 聚 类 和 搜索 了 1! 

处 理 完 语 料 库 之 后 ,语料库 中 的 每 篇 文档 将 会 对 应 一 个 文档 -主题 向 量 。 而 且 ， 更 重要 的 是 ， 
对 于 一 个 新 文档 或 短语 , 我 们 不 必 重 新 处 理 整 个 语料库 就 可 以 计算 得 到 其 对 应 的 新 主题 向 量 。 词 
汇 表 中 的 每 个 词 都 会 有 一 个 主题 向 量 ， 我 们 可 以 使 用 这 些 词 -主题 向 量 来 计算 词汇 表 中 部 分 词 构 
成 的 任何 文档 的 主题 向 量 。 

提示 “有 一 些 创 建 主题 向 量 的 算法 ， 如 潜在 狄 利克 雷 分 配 (Latent Dirichlet Allocation，LDiA ), #4 

实 需 要 在 每 次 添加 新 文档 时 重新 处 理 整个 语料库 。 
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D 我 喜欢 像 这 样 使 用 Google Ngram Viewer 来 对 趋势 进行 可 视 化 分 析 。 
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词 库 (词汇 表 ) 中 的 每 个 词 都 有 一 个 词 -主题 向 量 。 因 此 ， 我 们 可 以 计算 任何 新 文档 的 主题 
向 量 ， 只 需 将 其 所 有 词 的 主题 向 量 相 加 即 可 。 

对 词 和 句子 的 语义 (含义 ) 进行 数值 化 表示 可 能 比较 环 手 。 对 于 像 英 语 这 样 的 “模糊 性 ” 话 
言 更 是 如 此 ， 因 为 它 包 含 多 种 方言 ,并 且 对 于 同一 个 词 有 许多 不 同 的 解释 。 即 使 是 由 英语 教授 编 
写 的 正式 英语 文本 也 无 法 回避 这 样 一 个 事实 , 即 大 多 数 英语 单词 都 具有 多 重 含义 , 这 对 任何 初学 
者 (包括 机 器 学 习 工 具 ) 都 是 一 个 挑战 。 一 个 词 具 有 多 重 含义 这 一 概念 被 称 为 一 词 多 义 : 

m 一 词 多 义 (polysemy ) 词 和 短语 包含 不 止 一 种 含义 。 

一 词 多 义 会 在 多 个 方面 影响 词 或 语句 的 语义 。 为 了 了 解 LSA 的 能 力 , 我 们 把 它们 列 在 下 面 。 
大 家 不 必 担 心 这 些 挑 战 ， 因 为 LSA 会 为 我 们 处 理 好 这 一 切 : 

加 同音 异 义 (homonym ) 词 的 拼写 和 发 音 相同 ， 但 含义 不 同 ; 

E HA (zeugma ) 在 同一 句子 中 同时 使 用 同一 词 的 两 种 含义 。 

此 外 ，LSA 也 会 处 理 语 音 交 互 〈 可 以 语音 交谈 的 聊天 机 器 人 ， 如 Alexa 或 Siri ) 中 的 一 词 多 义 : 

m 同形 出 义 (homograph ) 词 的 拼写 相同 ， 但 是 发 音 不 同 ， 含 义 不 同 ; 

图 同音 异形 (homophone ) 词 的 发 音 相 同 ， 但 是 拼写 不 同 ， 含 义 不 同 (这 是 语音 交互 

NLP 面 对 的 一 个 挑战 )。 
想象 一 下 ， 如 果 没 有 LSA 之 类 的 工具 在 手 ， 我 们 又 不 得 不 处 理 如 下 这 条 语句 该 怎么 办 ? 


She felt ... less. She felt tamped down. Dim. More faint. Feint. Feigned. Fain. 
Patrick Rothfuss 


记 住 上 面 这 些 挑 战 ， 我 们 能 想象 如 何 将 一 个 100 维 〈 词 项 ) 的 TF-IDF 向 量 压缩 为 一 个 200 
维 (主题 ) 左右 的 向 量 吗 ? 这 就 像 要 确定 正确 的 原色 组 合 ， 从 而 试图 重 现 大 家 所 在 公寓 的 油漆 颜 
色 ， 这 样 就 可 以 盖 住 墙 上 的 钉子 洞 。 

我 们 需要 找到 属于 同一 个 主题 的 那些 词 维度 ， 然 后 对 这 些 词 维度 的 TF-IDF 值 求 和 ， 以 创建 
一 个 新 的 数值 来 表示 文档 中 该 主题 的 权重 。 我 们 甚至 可 以 对 词 维度 进行 加 权 以 衡量 它们 对 主题 的 
重要 度 , 以 及 我 们 所 希望 的 每 个 词 对 这 个 组 合 ( 混合 ) 的 贡献 度 。 我 们 也 可 以 用 负 权 重 来 表示 词 ， 
从 而 降低 文本 与 该 主题 相关 的 可 能 性 。 






























































































































































4.1.3 思想 实验 


我 们 来 做 一 个 思想 实验 。 假设 有 一 篇 特定 文档 的 TF-IDF 向 量 , 我 们 想 将 其 转换 为 主题 向 量 。 
我 们 可 以 设想 一 下 每 个 词 对 文档 的 主题 的 贡献 度 有 多 大 。 

假设 我 们 正在 处 理 一 些 有 关 纽 约 中 央 公 园 (NYC ) 中 宠物 的 句子 。 我 们 创建 3 个 主题 : 一 个 
与 宠物 有 关 ， 一 个 与 动物 有 关 ， 男 一 个 则 与 城市 有 关 。 我 们 可 以 把 这 些 主题 分 别称 为 “petness” 
“animalness” 和 “cityness”。 因 此 ,“petness” 主 题 会 给 “cat” 和 “dog” 这 样 的 词 打 高 分 ， 但 很 
可 能 会 忽略 “NYC” 和 “apple” 这 样 的 词 。 而 “cityness” 这 个 主题 则 会 忽略 “cat” 和 “dog” 这 
样 的 词 ， 但 可 能 会 给 “apple” 一 些 分 值 ， 因 为 有 “Big Apple” 联 盟 。 
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如 果 像 上 面 这 样 “训练 ”主题 模型 ,不 用 计算 机 ， 而 只 用 常识 ,我 们 可 能 会 得 到 一 些 下 面 这 
样 的 权重 结果 : 


>>> topic 
>>> tfidf 


{} 
dict(list(zip('cat dog apple lion NYC love'.split(), 


7 np.random.rand(6))) = G BOA A rae 
Sse podici bi enl. 这 个 tdf 向 量 只 是 一 个 随机 的 例子 ， 就 好 像 





















































) ) ) 
3 * tfidf['cat'] +\ Bees atl 、 
3% tfidf['dog'] +\ 它 是 为 一 篇 用 这 些 词 按 随机 比例 构成 的 文档 
0 x tfidf['apple'] +\ 计算 出 来 的 
9 
2 * tfidf['NYC'] +\ 
ney 2 * tfidf['love']) 2 
>>> topic['animalness'] = (.1 * tfidf['cat'] +\ 人 工 设 定 的 权重 (0.3, 0.3, 0, 0, -0.2, 0.2) 
.1 * tfidf['dog'] -\ 乘 以 上 面 虚构 的 tdf 值 ,从 而 为 虚构 的 
.1 * tfidf['apple'] +\ 随机 文档 创建 主题 向 量 。 稍 后 我 们 将 计 
.5 * tfidf['lion'] +\ 算 真 实 的 主题 向 量 
.1 * tfidf['NYC'] -\ 
PEA n * tfidf['love']) 
>>> topic['cityness'] = ( 0 * tfidf['cat'] -\ 
s1 EEidfE[ dog tI EN 
72 * ££10f [| applat]. =x 
a * tfidf['lion'] +\ 
2) * tEid£ ("NYC") FY 
* tfidf['love']) 














在 上 述 思想 实验 中 , 我 们 把 可 能 表示 每 个 主题 的 词 频 加 起 来 , 并 根据 词 与 主题 关联 的 可 能 性 
对 词 频 (TF-IDF fE) 加 权 。 同 样 ， 对 于 那些 可 能 在 某 种 意义 上 与 主题 相反 的 词 ， 我 们 也 会 做 类 
似 的 事 ， 只 不 过 这 次 是 减 而 不 是 加 。 这 并 不 是 真实 算法 流程 或 示例 的 真正 实现 ， 而 只 是 一 个 思想 
实验 而 已 。 我 们 只 是 想 弄 明白 如 何 教会 机 器 像 人 类 一 样 思 考 。 这 里 ,我 们 只 是 很 随意 地 选择 将 词 
和 文档 分 解 为 3 个 主题 (petness 、animalness 和 cityness )。 同时， 我们 这 里 的 词汇 量 也 极其 有 限 ， 
只 有 6 个 词 。 

下 一 步 我 们 将 要 思考 ， 人 类 是 如 何 从 数学 上 确定 哪些 主题 和 词 相互 关联 以 及 这 些 关联 的 权 
重 。 一 旦 确定 了 3 个 要 建 模 的 主题 ， 就 必须 确定 这 些 主 题 中 每 个 词 的 权重 。 我 们 按 比例 混合 词 ， 
使 主题 也 像 颜 色 混合 一 样 。 主 题 建 模 转换 ( 颜色 混合 配方 ) 是 一 个 3 x 6 的 比例 矩阵 (权重 ), 代 
表 3 个 主题 与 6 个 词 之 间 的 关联 。 用 这 个 和 矩阵 乘 以 一 个 假想 的 6 x 1 TF-IDF 向 量 , 就 得 到 了 该 文 
档 的 一 个 3 x 1 的 主题 向 量 。 

上 面 我 们 给 出 了 一 个 判断 ， 即 “cat” 和 “dog” 这 两 个 词 项 应 该 对 “petness” 主 题 有 相似 的 
贡献 度 (权重 为 0.3 )。 因 此 ，TF-IDF- 主 题 转换 和 矩阵 左上 角 的 两 个 值 都 是 0.3。 我 们 能 想象 出 用 
软件 计算 这 些 比 例 的 方法 吗 ? 请 记 住 ， 我 们 的 计算 机 可 以 读 取 、 切 分 文档 并 对 切 分 词 条 进行 计数 ， 
我 们 有 TF-IDF 向 量 来 表示 任意 多 的 文档 。 大 家 继续 阅读 时 ， 请 考虑 如 何 使 用 上 述 计数 结果 来 计 
算 词 的 主题 权重 。 

我 们 确定 “NYC” 这 个 词 项 应 该 对 “petness” 这 个 主题 有 负 向 的 权重 。 从 某 种 意义 上 说 ,， 城 
市 名 称 、 一 般 的 专 有 名 词 、 缩 写 词 及 首 字母 缩写 词 与 有 关 宠 物 的 词 几乎 没有 交集 。 想 想 词 的 交集 
意味 着 什么 ，TF-IDF 矩阵 中 是 否 有 什么 东西 代表 了 词 的 交集 ? 
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我 们 给 “love” 这 个 词 赋予 了 一 个 对 “pets” 主 题 的 正 向 的 权重 ， 这 可 能 是 因为 我 们 经 常 把 
“love” 和 有 关 宠 物 的 词 放 在 同一 个 句子 中 。 毕 竟 ， 我 们 人 类 倾向 于 喜爱 宠物 。 我 们 只 能 希望 我 们 
的 人 工 智 能 也 会 同样 爱 我 们 。 

需要 注意 的 是 ， 上 面 我 们 也 将 少许 比例 的 词 “apple” 放 入 “city” 的 主题 向 量 中 。 这 可 能 是 人 工 设 
定 所 致 ， 因 为 我 们 知道 “NYC” 和 “Big Apple” 通 常 是 同义词 。 在 理想 情况 下， 我 们 的 语义 分 析 算法 
可 以 根据 “apple” 和 “NYC” 在 相同 文档 中 的 共 现 频率 来 计算 出 “apple” 和 “NYC” 之 间 的 同 义 性 。 

当 阅 读 上 述 示例 “代码 ”中 的 其 余 加 权 和 时 , 我 们 尝试 猜测 应 该 如 何 得 到 这 3 个 主题 和 6 个 
词 的 权重 。 如 何 改 变 它们 的 值 ? 我 们 能 用 什么 值 来 客观 地 衡量 这 些 比 例 值 ( 权重 ) ? 大 家 头脑 中 
的 语料库 可 能 和 我 们 头脑 中 的 语料库 不 一 样 , 所 以 大 家 可 能 对 这 些 词 和 为 这 些 词 赋予 的 权重 有 不 
同 的 看 法 。 对 于 这 6 个 词 和 3 个 主题 ， 我 们 能 做 些 什么 才能 达成 共识 呢 ? 

注意 ”我们 选择 了 带 符号 的 词 权重 来 生成 主题 向 量 ， 这 人 允许 我 们 可 以 对 与 主题 相反 的 词 使 用 负 权 

重 。 因 为 采用 手工 计算 ， 所 以 我 们 选择 了 使 用 易于 计算 的 1 范 数 ( 也 称 为 曼哈顿 距离 、 出 租车 距离 

或 城市 街区 距离 ) 来 对 主题 向 量 进 行 归 一 化 处 理 。 尽 管 如 此 ， 本 章 稍 后 介绍 的 LSA 实际 使 用 更 有 

用 的 2 范 数 对 主题 向 量 进行 妇 一 化 处 理 。2 范 数 是 我 们 在 几何 课 上 所 熟悉 的 传统 欧 几 里 得 距离 或 长 

度 ， 也 是 毕 达 哥 拉 斯 定理 解 出 的 直角 三 角形 斜 边 的 长 度 。 

在 阅读 上 述 向 量 时 ， 大 家 可 能 已 经 意识 到 词 和 主题 之 间 的 关系 可 以 翻转 。3 个 主题 向 量 组 
成 的 3 x 6 和 矩阵 可 以 转 置 ， 从 而 为 词汇 表 中 的 每 个 词 生成 主题 权重 。 这 些 权重 向 量 就 是 6 个 词 
的 词 向 量 : 


>>> word vector = {} 






























































>>> word_vector['cat'] = .3*topic['petness'] +\ 

.1*topic[{'animalness'] +\ 
O*topic['cityness' 
>>> word_vector['dog'] = .3*topic['petness'] +\ 
.1*topic['animalness'] -\ 
atic .l*topic['cityness' 
>>> word_vector['apple']= O*topic['petness'] -\ 
.1*topic['animalness'] +\ 
-2*topic['cityness' 
>>> word_vector['lion'] = O*topic['petness'] +\ 
-5*topic['animalness'] -\ 
-l*topic['cityness' 
>>> word_vector['NYC'] = -.2*topic['petness'] +\ 
.1*topic['animalness'] +\ 
-o*topic['cityness' 











>>> word_vector['love'] = .2*topic['petness'] -\ 








.1*topic['animalness'] +\ 








-l*topic['cityness' 
这 6 个 主题 向 量 如 图 4-1 所 示 ， 每 个 词 对 应 一 个 主题 向 量 ， 以 三 维 向 量 的 形式 表示 6 个 词 的 
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y = “animalness” 








lion 


0.5 [0, 0.5, 0.1] 





dog 
[0.3, 0.1, -0.1] 
cat 
(0.3, 0.1, 0] 
NYC 
[-0.2, 0.1, 0.5] 
3 x = “petness” 
love 
[0, -0.1, 0.2] 






apple 


z = “cityness” [0, -0.1, 0.2] 


图 4-1 关于 pets 和 NYC 的 6 个 词 的 思想 实验 的 三 维 向量 


之 前 ,每 个 主题 用 向 量 来 表示 ， 而 每 个 向 量 中 给 出 了 每 个 词 的 权重 , 我 们 在 3 个 主题 中 使 用 
六 维 向 量 来 表示 词 的 线性 组 合 结果 。 在 上 述 思 想 实验 中 ， 我 们 为 单 篇 自然 语言 文档 手工 建立 了 一 
个 三 主题 模型 ! 如 果 只 是 计算 这 6 个 词 的 出 现 次 数 , 并 将 它们 乘 以 权重 ， 就 会 得 到 任何 文档 的 三 
维 主题 向 量 。 三 维 向量 很 有 意思 ， 因 为 它们 很 容易 实现 可 视 化 。 我 们 可 以 绘制 出 这 些 三 维 向 量 ， 
并 以 图 形 形 式 来 与 他 人 共享 关于 语料库 或 具体 文档 的 一 些 看 法 ,三 维 向 量 ( 或 任何 低 维 向 量 空间 ) 
对 于 机 天 学 习 分 类 问题 也 很 有 用 。 分 类 算法 可 以 用 平面 (或 超 平面 ) 分 割 向 量 空间 ， 从 而 将 向 量 
空间 划分 为 类 别 。 

我 们 语料库 中 的 文档 可 能 会 使 用 更 多 的 词 ， 但 是 这 个 特定 的 主题 向 量 模型 只 会 受到 这 
6 个 词 的 用 法 的 影响 。 我 们 可 以 将 这 种 方法 扩展 到 尽 可 能 多 的 词 ， 只 要 我 们 有 足够 的 耐心 
(或 算法 )。 只 要 模型 还 需要 根据 3 个 不 同 的 维度 或 主题 来 区 分 文档 ， 词 汇 表 就 可 以 像 我 们 
希望 的 那样 不 断 增 长 。 在 上 述 思想 实验 中 , 我 们 将 六 维 (TF-IDF 归 一 化 频率 ) 压缩 为 三 维 
(主题 )。 

上 述 主 观 的 、 人 力 耗 费 型 的 语义 分 析 方 法 依赖 人 们 的 直觉 和 常识 来 将 文档 分 解 为 主题 ,但 是 ， 
常识 很 难 编码 到 算法 中 "。 因 此 ， 上 述 方法 是 不 可 重 现 的 ， 我 们 可 能 会 得 到 和 前 面 不 一 样 的 权 
E, 显然 , 这 并 不 适合 机 器 学 习 流 水 线 。 另 外 ,上 述 做 法 也 不 能 很 好 地 扩展 到 更 多 的 主题 和 词 。 
人 类 无 法 将 足够 多 的 词 分 配给 足够 多 的 主题 ,从 而 精确 捕获 需要 机 需 处 理 的 任何 不 同类 型 语 料 
库 中 的 文档 的 含义 。 
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D 斯坦福 大 学 的 Doug Lenat 正 试图 将 常识 编码 到 算法 中 。 参 见 《 连 线 》 杂 志 上 的 文章 “Doug Lenat’s Artificial 
Intelligence Common Sense Engine”, 
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下 面 我 们 来 实现 上 述 手 工 过 程 的 自动 化 ， 我 们 将 使 用 一 种 不 依赖 常识 的 算法 来 选择 主题 权重 。 

如 果 我 们 稍微 想 一 下 ， 就 会 知道 每 一 个 加 权 和 其 实 都 是 一 个 点 积 ，3 个 点 积 (加 权 和 ) 就 是 
一 个 矩阵 乘法 ， 或 者 说 是 内 积 。 将 一 个 3 x n 的 权重 矩阵 与 TF-IDF 向 量 相 乘 (文档 中 每 个 词 对 
应 一 个 值 ), 其 中 是 词汇 表 中 的 词 项 数 。 这 个 乘法 的 输出 是 表示 该 文档 的 一 个 新 的 3 x 1 主题 向 
量 。 我 们 所 做 的 就 是 将 一 个 向 量 从 一 个 向 量 空间 ( TF-IDF ) 转换 到 另 一 个 低 维 向 量 空间 ( 主题 向 
EE), 我们 的 算法 应 该 创建 一 个 n AARI m 个 主题 的 和 矩阵， 我 们 可 以 将 其 乘 以 文档 的 词 频 向 
量 ， 从 而 得 到 该 文档 的 新 主题 向 量 。 

注意 在 数学 中 ,词汇 表 ( 一 种 语言 中 所 有 可 能 的 词 的 集合 ) HABE SRN. REV BRAT 

表示 词汇 表 中 可 能 的 词 集合 。 所 以 ， 如 果 我 们 正在 写 一 篇 关于 NLP 的 学 术 论 文 ， 在 任何 用 n RH 

述 词汇 表 的 大 小 的 地 方 ， 都 可 以 用 | 由 来 描述 。 






























































4.1.4 ”一 个 主题 评分 算法 
我 们 仍然 需要 一 种 算法 来 确定 上 面 提 到 的 主题 向 量 ， 我 们 也 需要 将 TF-IDF 向 量 转换 为 主题 
向 量 。 机 器 无 法 分 辩 哪 些 词 应 该 属于 同一 组 ， 或 者 它们 当中 的 任何 一 个 表示 什么 含义 ， 对 不 对 ? 
20 世纪 的 英国 语言 学 家 J R. Firth 研究 了 如 何 估计 一 个 词 或 语素 ”的 含义 。1957 年 ， 他 给 出 了 一 
条 如 何 计算 词 主题 的 线索 ， 他 写 道 : 
可 以 通过 词 的 上 下 文 来 理解 它 。 














——J.R. Firth 


那么 ,如 何 来 表示 词 的 上 下 文 呢 ? WE, 最 直接 的 方法 是 计算 词 和 上 下 文 在 同一 文档 中 的 共 现 
次 数 。 第 3 章 中 的 词 袋 (BOW ) 和 TF-IDF 向 量 可 以 满足 这 一 需求 。 这 种 计算 共 现 次 数 的 方法 导 
致 了 多 个 算法 的 出 现 ， 这 些 算 法 通过 创建 向 量 来 表示 文档 或 句子 中 词 使 用 的 统计 信息 。 

LSA 是 一 种 分 析 TF-IDF 矩阵 (TF-IDF 向 量 构成 的 表格 ) 的 算法 ， 它 将 词 分 组 到 主题 中 。 
LSA 也 可 以 对 词 袋 向 量 进行 处 理 ， 但 是 TF-IDF 向 量 给 出 的 结果 稍 好 一 些 。 

LSA 还 对 这 些 主题 进行 了 优化 , 以 保持 主题 维度 的 多 样 性 。 当 使 用 这 些 新 主题 而 不 是 原始 词 
时 ,我 们 仍然 可 以 捕获 文档 的 大 部 分 含义 (语义 )。 该 模型 中 用 于 捕获 文档 含义 所 需 的 主题 数量 
远 远 少 于 TF-IDF 向 量词 汇 表 中 的 词 的 数量 。 因 此 ，LSA 通常 被 认为 是 一 种 降 维 技术 。LSA 减少 
了 捕获 文档 含义 所 需 的 维 数 。 

大 家 是 否 曾经 对 一 个 大 型 数值 矩阵 使 用 过 降 维 技术 呢 ? 如 像素 矩阵 ? 如 果 大 家 对 图 像 或 其 
他 高 维 数据 进行 过 机 器 学 习 , 那么 可 能 会 遇 到 一 种 称 为 主 成 分 分 析 ( principal component analysis, 





































































































D 维基 百科 有 关 topic model 的 条 目的 网 页 中 给 出 了 一 个 视频 ,该 视频 展示 了 更 多 主题 和 词 上 的 主题 建 模 模 
型 。 像 素 的 黑色 程度 代表 了 主题 和 词 的 权重 或 者 得 分 ， 就 像 这 里 给 出 的 手工 示例 一 样 。 该 视频 给 出 的 是 
一 个 称 为 SVD 的 具体 算法 ， 它 将 词 和 主题 进行 重 排 ， 以 尽 可 能 在 对 角 线 中 给 予 更 大 的 权重 。 该 算法 能 
够 帮助 识别 能 够 同时 表示 主题 和 词 的 意义 的 模式 。 

© 语素 (morpheme ) 是 一 个 词 的 最 小 意义 单元 。 参 见 维基 百科 条 目 “Morpheme”。 
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PCA ) 的 技术 。 事 实证 明 ，PCA 和 LSA 的 数学 计算 方法 是 一 样 的 。 然 而 ， 当 减少 图 像 或 其 他 数 
值 表格 而 不 是 词 袋 向 量 或 TF-IDF 向 量 的 维 数 时 ， 我 们 就 说 这 是 PCA. 

直到 最 近 ， 研 究 人 员 才 发 现 也 可 以 使 用 PCA 对 词 进 行 语义 分 析 。 这 时 他 们 给 这 个 特定 的 应 
用 起 了 一 个 它 自 己 的 名 字 LSA。 尽 管 我 们 将 很 快 看 到 要 使 用 的 是 scikit-learn PCA 模型 , 但 
是 这 个 拟 合 与 转换 过 程 的 输出 是 一 个 表示 文档 语义 的 向 量 ， 它 仍然 是 LSA。 

此 外 ， 我 们 还 可 能 会 遇 到 LSA 的 另 一 个 同义词 。 在 信息 检索 领域 ， 我 们 关注 的 是 为 全 文本 
搜索 建立 索引 ，LSA 通常 被 称 为 潜在 语义 索引 (latent semantic indexing, LSI )。 但 这 个 术语 已 经 
不 再 流行 ,因为 它 根本 不 产生 任何 索引 。 事 实 上 , 它 生成 的 主题 向 量 通常 由 于 维度 过 高 而 无 法 被 
完美 地 索引 。 所 以 我 们 从 这 里 开始 使 用 LSA 这 个 术语 。 


提示 ”通过 对 数据 库 构 建 索引 ， 我 们 能 够 根据 某 一 行 的 部 分 信息 来 快速 检索 出 表 中 的 这 一 行 。 教 材 
中 索引 的 工作 流程 如 下 : 如 果 要 寻找 特定 的 页 面 ,那么 可 以 在 索引 中 查找 页 面 应 该 包含 的 词 。 然 后 ， 
我 们 就 可 以 直接 访问 包含 所 有 要 找 的 词 的 一 个 或 多 个 页 面 。 


LSA 的 “ 堂 兄 弟 ” 们 


有 两 种 算法 与 LSA 相似 ， 它 们 也 有 相似 的 NLP 应用， 因此 我 们 在 这 里 一 并 提 一 下 它们 : 

m 线性 判别 分 析 (linear discriminant analysis, LDA ); 

m 潜在 狄 利 克 雷 分 布 (latent Dirichlet allocation, LDiA ) ”. 

LDA 将 文档 分 解 到 单个 主题 中 。 而 LDiA 则 更 像 LSA， 因 为 它 可 以 将 文档 分 解 到 任意 多 个 主题 中 。 


提示 因为 LDA 是 一 维 的 ， 所 以 它 不 需要 奇异 值 分 解 (singular value decomposition, SVD )。 我 们 
可 以 只 计算 二 类 ( 如 垃圾 和 非 垃 圾 ) 问题 中 每 一 类 的 所 有 TF-IDF 向 量 的 质心 (平均 值 )。 我 们 的 维 
度 就 变 成 了 这 两 个 质心 之 间 的 直线 。TEF-IDF 向 量 与 这 条 直线 越 近 (TF-IDF 向 量 与 这 条 直线 的 点 积 )， 
就 表示 它 与 其 中 一 个 类 越 近 。 


下 面 先 给 出 了 用 于 主题 分 析 的 简单 LDA 方法 的 一 个 示例 ,以 便 在 使 用 LSA 和 LDiA 之 前 让 
大 家 热 热身 做 点 准备 工作 。 

























































































4.1.5 一 个 LDA 分 类 器 


我 们 将 会 发 现 ，LDA 是 最 直接 也 最 快速 的 降 维 和 分 类 模型 之 一 。 但 本 书 可 能 是 少 有 的 大 家 
会 读 到 它 的 地 方 之 一 ， 因 为 它 本 身 不 是 很 光彩 夺目 。 但 是 在 许多 应 用 中 ， 我 们 会 发 现 它 具 有 上 比 
最 新 论文 中 发 表 的 更 炫 栈 的 算法 更 高 的 精确 率 。LDA 分 类 器 是 一 种 有 监督 算法 ， 因 此 需要 对 文 
档 的 类 进行 标注 。 但 是 LDA 所 需要 的 训练 样本 数 要 比 更 炫 酷 的 算法 少 得 多 。 


















































D 这 里 我 们 采用 LDiA 这 种 缩写 形式 来 表示 潜在 狄 利克 雷 分 布 ,或许 Panupong (Ice) Pasupat 会 赞同 这 一 点 。 
Panupong 是 斯 坦 福 大 学 一 门 有 关 LDiA 的 在 线 计 算 机 科学 NLP 课程 的 授课 老师 。 
© 读者 可 以 在 20 世纪 90 年 代 的 论文 中 看 到 它 ， 那 个 时 候 人 们 需要 十 分 高 效 地 使 用 自己 的 计算 和 数据 资源 。 
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在 本 例 中 ， 我 们 给 出 了 LDA 的 一 个 简单 的 实现 版 本 ， 该 实现 无 法 在 scikit-learn 中 找 
到 。 模 型 训练 只 有 3 个 步骤 ,我 们 可 以 直接 使 用 Python 来 实现 。 

(1) 计算 某 个 类 〈 如 垃圾 短 消 息 类 ) 中 所 有 TF-IDF 向 量 的 平均 位 置 ( 质心 )。 

(2) 计算 不 在 该 类 ( 如 非 垃圾 短 消息 类 ) 中 的 所 有 TF-IDF 向 量 的 平均 位 置 (质心 )。 

(3 ) 计算 上 述 两 个 质心 之 间 的 向 量 差 ( 即 连接 这 两 个 向 量 的 直线 )。 

要 “训练 ”LDA 模型 ,只 需 找 到 两 个 类 的 质心 之 间 的 向 量 ( 直线 ), LDA 是 一 种 有 监督 算法 ， 
因此 需要 为 消息 添加 标签 。 要 利用 该 模型 进行 推理 或 预测 ， 只 需要 判断 新 的 TF-IDF 向 量 是 否 更 
接近 类 内 (垃圾 类 ) 而 不 是 类 外 《〈 非 垃圾 类 ) 的 质心 。 首 先 ， 我 们 来 训练 一 个 LDA 模型 ， 将 短 


























消息 分 为 垃圾 类 或 非 垃圾 类 ( 如 代码 清单 4-1 所 示 )。 
代码 清单 4-1 ”垃圾 短 消息 数据 集 





>>> from nlpia.data.loaders import get_data 出 中 显示 宽 列 的 短 消 息 文本 
>>> pd.options.display.width = 120 

>>> sms = get_data('sms-spam') 

>>> index = ['sms{}{}'.format(i, '!'*j) for (i,j) in\ 

is zip (range (len (sms)), sms.spam) ] 

>>> sms = pd.DataFrame (sms.values, columns=sms.columns, index=index) 


>>> import pandas as pd 这 一 行 有 助 于 在 Pandas DataFrame 打印 输 


























>>> sms['spam'] = sms.spam.astype (int) 
>>> len(sms) 
4837 这 只 是 为 了 显示 。 我 们 已 经 通过 添加 感叹 
>>> sms.spam.sum() 号 ! 标注 了 垃圾 短 消息 
638 
>>> sms.head (6) 
spam text 
sms0 0 Go until jurong point, crazy.. Available only ... 
smsl 0 Ok lar... Joking wif u oni... 
sms2! 1 Free entry in 2 a wkly comp to win FA Cup fina... 
sms3 0 U dun say so early hor... U c already then say... 
sms4 0 Nah I don't think he goes to usf, he lives aro... 
sms5! 1 FreeMsg Hey there darling it's been 3 week's n... 


因此 ， 上 述 数据 集中 有 4837 条 短 消息 ， 其 中 638 条 被 标注 为 二 类 标签 “spam”( 垃圾 类 )。 
下 面 我 们 就 对 所 有 这 些 短 消 息 进 行 分 词 ， 并 将 它们 转换 为 TF-IDF 向 量 : 


>>> from sklearn.feature extraction.text import TfidfVectorizer 
>>> from nltk.tokenize.casual import casual_tokenize 

>>> tfidf_model = TfidfVectorizer (tokenizer=casual_tokenize) 
>>> tfidf_docs = tfidf_model.fit_transform(\ 

até. raw_documents=sms.text) .toarray() 

>>> tfidf_docs.shape 





(4837, 9232) 
>>> sms.spam.sum() 
638 














nltk.casual tokenizer 处 理 后 的 词汇 表 中 包含 9232 个 词 。 词 的 数量 几乎 是 短 消 息 数 的 两 倍 ， 
是 垃圾 短 消息 数 的 十 倍 。 因 此 ,模型 不 会 有 很 多 有 关 垃 圾 短 消息 指示 词 的 信息 。 通常 ， 当 词汇 表 
的 规模 远 远大 于 数据 集中 标注 的 样本 数量 时 ,朴素 贝 叶 斯 分 类 器 就 不 是 很 奏效 ， 而 这 种 情况 下 本 
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章 的 语义 分 析 技 术 就 可 以 提供 帮助 。 
下 面 先 从 最 简单 的 语义 分 析 技术 LDA 开始 。 我 们 可 以 在 sklearn.discriminant analysis. 
LinearDiscriminantAnalysis 中 使 用 LDA 模型 。 但 是 ， 为 了 训练 这 个 模型 ， 只 需要 计算 
两 个 类 ( 垃圾 类 和 非 垃圾 类 ) 的 质心 ， 因 此 我 们 可 以 直接 这 样 做 : 
可 以 使 用 掩 码 从 numpy.array 或 pandas. 
DataFrame 中 仅 返 回 垃圾 类 的 行 
>>> mask = sms.spam.astype (bool) .values < 


>>> spam centroid = tfidf_docs [mask] .mean (axis=0) < 
>>> ham_centroid = tfidf_docs[~mask] .mean (axis=0) 












































>>> spam centroid.round (2) 因为 TF-IDF 向 量 是 行 向 量 , 所 以 需 
array([0.06, 0; t Os p sep Dx r (Os p Oy ]) 要 确保 numpy 使 用 axis=0 独立 计算 
>>> ham centroid.roungd(2) 每 一 列 的 平均 值 

array (0:02; 0 Os p amar O z0 ; 0 ]) 


现在 可 以 用 一 个 质心 向 量 减 去 另 一 个 质心 向 量 从 而 得 到 分 类 线 : 
>>> spamminess_ score = tfidf_docs.dot (spam centroid -\ 


ham_centroid) sie pe aes R 
; 该 点 积 计算 的 是 每 个 向 量 在 
>>> spamminess_score.round (2) 


S a oe g H «gge Es 
array([-0.01, -0.02, 0.04, ..., -0.01, -0. , Q. ]) 质心 连 线 上 的 “阴影 ”投影 








这 个 原始 的 spamminess_score 得 分 是 非 垃 圾 类 质心 到 垃圾 类 质心 的 直线 距离 。 我 们 用 点 
积 将 每 个 TF-IDF 向 量 投影 到 质心 之 间 的 连 线 上 ,从 而 计算 出 这 个 得 分 ,在 一 个 “向 量化 ”的 numpy 
运算 中 , 我 们 同时 完成 了 4837 次 点 积 计 算 。 与 Python 循环 相 比 , 这 可 以 将 处 理 速度 提高 100 o 

4-2 给 出 了 三 维 TF-IDF 向 量 的 视图 ， 同 时 给 出 了 短 消息 数据 集 类 的 质心 所 在 的 位 置 。 








图 4-2 TF-IDF 向 量 的 三 维 散 点 图 ( 点 云 ) 
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4-2 中 从 非 垃圾 类 质心 到 垃圾 类 质心 的 箭头 就 是 模型 训练 得 到 的 直线 ,该 直线 定义 了 模型 。 
我 们 可 以 看 到 箭头 尾部 一 些 淡 色 点 (彩色 图 中 为 绿 点 ) 的 分 布 情况 ， 当 将 它们 投影 到 质心 的 连 线 
上 时 ， 我 们 可 能 会 得 到 一 个 负 的 垃圾 信息 评分 。 

在 理想 情况 下 ,我 们 希望 上 述评 分 就 像 概率 那样 取 值 在 0 到 1 之 间 。sklearnMinMaxScaler 


可 以 帮 我 们 做 到 这 一 点 : 








>>> from sklearn.preprocessing import MinMaxScaler 
>>> sms['lda_score'] = MinMaxScaler().fit_transform(\ 
spamminess_score.reshape (-1,1) 


>>> sms['lda_predict'] 


(sms.lda_score > .5) .astype (int) 


>>> sms['spam lda predict lda_score'.split()].round(2) .head(6) 
spam lda_predict lda_score 

sms0 0 0 0,23. 

sms1 0 0 18 

sms2! 1 1 0.72 

sms3 0 0 0.18 

sms4 0 0 0.29 

sms5! 于 t 0.55 





MMAR ARM, MEREEN SOM, 前 6 条 消息 都 被 正确 分 类 。 我 们 接 下 来 看 


看 它 在 训练 集 其 余部 分 的 表现 : 


>>> (1. - 
0.977 


(sms.spam - sms.lda_predict).abs().sum() / len(sms)).round(3) 


这 个 简单 的 模型 对 97.7% 的 消息 进行 了 正确 分 类 。 在 真实 世界 中 , 我 们 不 太 可 能 得 到 这 样 的 














结果 ， 这 是 因为 刚才 我 们 并 没有 分 离 出 一 个 测试 集 。 对 于 这 里 得 到 如 此 高 精度 结果 的 原因 在 于 ， 








我 们 用 于 测试 的 问题 ， 
型 ， 参 数 很 少 ， 














分 类 带 实 际 已 经 在 训练 过 程 中 “ 见 过 ”。 但 是 ，LDA 是 一 个 非常 简单 的 模 





所 以 它 应 该 可 以 很 好 地 泛 化 ， 只 要 这 里 的 短 消息 能 够 代表 将 要 分 类 的 消息 即 可 。 




















大 家 可 以 尝试 用 自己 的 例子 来 寻找 答案 。 或者, 一 种 更 好 的 做 法 是 查看 附录 D, 学 习 如 何 进行 所 
谓 的 交叉 验证 (cross validation )。 

这 就 是 语义 分 析 方 法 的 威力 。 与 朴素 贝 叶 斯 或 对 率 回 归 (logistic regression ) 模型 不 同 ， 语 
义 分 析 并 不 依赖 独立 的 词 。 语 义 分 析 会 聚合 语义 相似 的 词 ( 如 spamminess ) 并 将 它们 一 起 使 用 。 
但 是 请 记 住 ， 这 个 训练 集 只 包含 有 限 的 词汇 表 和 一 些 非 英语 词 。 因 此 ， 如 果 希 望 正确 分 类 ,测试 
消息 也 需要 使 用 相似 的 词 。 

下 面 看 看 训练 集 上 的 混淆 和 矩阵 的 样子 。 它 给 出 了 标注 为 垃圾 但 是 根本 不 是 垃圾 的 消息 〈 假 
阳 )， 也 给 出 了 标注 为 非 垃圾 但 是 本 应 该 标注 为 垃圾 的 消息 〈( 假 阴 )。 


>>> from pugnlp.stats import Confusion 
>>> Confusion(sms['spam 
lda_predict 























spam 
0 
1 





D 实际 上 ， 朴 素 贝 叶 斯 和 对 率 
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35 
45 
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64 
593 





















































lda_predict'.split()]) 











关 数 学 原理 和 sklearn 代码 。 














回归 模型 均 与 这 里 的 简单 LDA 模型 等 价 。 如 果 需 要 ， 可 以 深入 研究 一 下 相 
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上 面 的 结果 看 起 来 不 错 。 如 果 假 阳 ( 64 ) REH (45) 失衡 ,我 们 可 以 调整 0.5 AARE. 
现在 ,我 们 已 经 准备 好 学 习 可 以 计算 多 维 语义 向 量 而 不 仅仅 是 一 维 语义 得 分 的 模型 。 到 目前 为 止 ， 
一 维 向 量 “ 理 解 ”的 唯一 事情 是 词 和 文档 的 垃圾 性 , 我 们 希望 它 能 够 学 习 更 多 的 词 上 的 细微 差别 ， 
并 提供 一 个 多 维 向 量 来 捕捉 词 的 含义 。 

在 深入 研究 SVD (多维 LSA 背后 的 数学 ) 之 前 ,我 们 应 该 先 介绍 一 些 其 他 方法 。 


LSA 的 另 一 位 “ 堂 兄弟 ” 


LSA 还 有 男 一 位 “党 兄弟 ”, 它 有 一 个 类 似 于 LDA 的 缩写 一 一 LDiA。LDiA 代表 Latent Dirichlet 
Allocation ( 潜在 狄 利克 雷 分 布 ) "。LDiA 还 可 以 用 来 生成 捕捉 词 或 文档 语义 的 向 量 。 

LDiA 和 LSA 在 数学 上 并 不 一 样 ,， 它 使 用 非 线性 统计 算法 将 词 分 组 。 因 此 , 它 通 常会 比 线性 
方法 (如 LSA ) 的 训练 时 间 长 很 多 。 这 常常 使 LDiA 在 许多 实际 应 用 中 并 不 实用 ,而且 它 基本 不 
会 是 我 们 要 尝试 的 第 一 种 方法 。 尽管 如 此 , 它 所 创建 的 主题 的 统计 数据 有 时 更 接近 于 人 类 对 词 和 
主题 的 直觉 ， 所 以 LDiA 主题 通常 更 易于 向 上 级 解释 。 

此 外 ，LDiA 对 于 一 些 单 文档 问题 有 用 ， 如 文档 摘要 。 这 时 ， 语 料 库 就 是 单 篇 文档 ， 文 档 的 
句子 就 是 该 “语料库 ”中 的 一 篇 篇 “文档 ”。 这 就 是 gensim 和 其 他 软件 包 使 用 LDiA 来 识别 文 
档 中 最 核心 句子 的 做 法 。 然 后 这 些 句 子 可 以 串 在 一 起 形成 一 篇 由 机 器 生成 的 摘要 ”。 

对 于 大 多 数 分 类 或 回归 问题 , 通常 最 好 使 用 LSA。 因此 , 我 们 首先 解释 潜在 语义 分 析 (LSA ) 
及 其 底层 的 SVD 线性 代数 知识 。 






















































































42 潜在 语义 分 析 


潜在 语义 分 析 基 于 最 古老 和 最 常用 的 降 维 技术 一 一 奇异 值 分 解 (SVD )。SVD 其 至 早 在 “机 器 
学 习 ” 这 个 术语 出 现 之 前 就 已 经 广泛 使 用 。SVD 将 一 个 矩阵 分 解 成 3 个 方 阵 ， 其 中 一 个 是 对 角 
FERE. 

SVD H — AMAER EE — “MBE AT IAEN 3 个 更 简单 的 方 阵 ， 然 后 对 这 些 方 阵 求 
转 置 后 再 把 它们 相 乘 ， 就 得 到 了 原始 和 矩阵 的 道 矩 阵 。 设 想 一 下 上 述 算法 的 所 有 应 用 ， 它 为 我 们 提 
供 了 一 个 对 大 型 复杂 矩阵 求 道 的 捷径 。SVD 适用 于 梅 架 结构 的 应 力 和 应 变 分 析 等 机 械 工程 问题 ， 
它 对 电气 工程 中 的 电路 分 析 也 很 有 用 , 它 甚 至 在 数据 科学 中 被 用 于 基于 行为 的 推荐 引擎 ， 其 与 基 
于 内 容 的 NLP 推荐 引擎 一 起 运行 。 
利用 SVD，LSA 可 以 将 TF-IDF 词 项 -文档 矩阵 分 解 为 3 AEREE X 3 个 和 矩阵 可 以 













































































D 我 们 使 用 了 一 个 非 标准 的 缩写 方式 LDiA 来 和 LDA 进行 区 分 ，LDA 通常 表示 线性 判别 分 析 ， 当 然 并 不 
一 直 是 这 样 。 至 少 在 本 书 中 ,我 们 不 需要 猜测 到 底 是 哪个 算法 : LDA 就 是 线性 判别 分 析 , 而 LDiA 则 代 

表 潜 在 狄 利克 雷 分 布 。 

D 我 们 使 用 了 类 似 的 数学 知识 来 生成 “About the book” 这 一 节 中 的 部 分 文本 , 不 过 我 们 实现 的 是 神经 网 络 
算法 (参考 第 12 FF). 
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相 乘 得 到 原始 和 矩阵， 得 到 的 原始 矩阵 不 会 有 任何 改变 。 这 就 像 大 整数 因子 分 解 。 让 我 们 为 这 个 发 
现 大 声 欢呼 一 下 ! 但 是 , 经 过 SVD 后 得 到 的 这 3 个 更 简单 的 矩阵 揭示 了 原始 TF-IDF 矩阵 的 一 些 
性 质 , 我 们 可 以 利用 这 些 性 质 来 简化 原始 矩阵 。 我们 可 以 在 将 这 些 和 矩阵 相 乘 之 前 对 它们 进行 截断 
处 理 (忽略 一 些 行 和 列 )， 这 将 减少 在 向 量 空间 模型 中 需要 处 理 的 维 数 。 

这 些 截 断 的 矩阵 相 乘 并 不 能 得 到 和 原始 TF-IDF 和 矩阵 完全 一 样 的 矩阵 ， 然 而 它们 却 给 出 了 一 
个 更 好 的 矩阵 。 文 档 的 新 表示 包含 了 这 些 文档 的 本 质 ， 即 隐 性 语义 。 这 就 是 SVD 被 用 于 其 他 领 
域 如 压缩 的 原因 。 它 能 捕捉 数据 集 的 本 质 ， 并 且 和 忽略 噪声 。JPEG 图 像 大 小 是 原始 位 图 的 十 分 之 
一 ， 但 仍然 包含 原始 图 像 的 所 有 信息 。 

当 在 自然 语言 处 理 中 以 这 种 方式 使 用 SVD 时 , 我 们 将 其 称 为 潜在 语义 分 析 (LSA )。LSA 揭 
示 了 被 隐藏 并 等 待 被 发 现 的 词 的 语义 或 意义 。 

潜在 语义 分 析 是 一 种 数学 上 的 技术 ,用 于 寻找 对 任意 一 组 NLP 向 量 进行 最 佳 线性 变换 ( 旋转 和 
HAR ) 的 方法 ， 这 些 NLP 向 量 包 括 TF-IDF 向 量 或 词 袋 向 量 。 对 许多 应 用 来 说 ， 最 好 的 变换 方法 是 
将 坐标 轴 (维度 ) 对 齐 到 新 向 量 中 ， 使 其 在 词 频 上 具有 最 大 的 散 度 (spread ) 或 方差 (variance ) ”. 
然后 ， 我 们 可 以 在 新 的 向 量 空间 中 去 掉 那 些 对 不 同文 档 向 量 的 方差 贡献 不 大 的 维度 。 

这 种 使 用 SVD 的 方法 称 为 截断 的 奇异 值 分 解 (truncated singular value decomposition, Wr 
的 SVD )。 在 图 像 处 理 和 图 像 压 缩 领 域 ,， 大 家 可 能 听 说 过 这 个 方法 ， 在 那里 叫 作 主 成 分 分 析 
( principal component analysis, PCA ) 另外 , 我 们 会 展示 一 些 有 助 于 提高 LSA 向 量 精确 率 的 技巧 。 
当 我 们 在 其 他 领域 使 用 PCA 处理 机 器 学 习 和 特征 工程 问题 时 ， 这 些 技巧 也 很 有 用 。 

如 果 大 家 学 过 线性 代数 ， 就 可 能 学 过 LSA 背后 的 代数 称 为 奇异 值 分 解 。 如 果 对 图 像 或 其 他 
高 维 数据 ( 如 时 间 序 列 ) 进行 过 机 器 学 习 ， 那 么 就 可 能 对 这 些 高 维 向 量 使 用 过 PCA。 自 然 语 言 
文档 上 的 LSA 等 价 于 TF-IDF 向 量 上 的 PCA。 

LSA 使 用 SVD 查找 导致 数据 中 最 大 方差 的 词 的 组 合 。 我 们 可 以 旋转 TF-IDF 向 量 ， 使 旋转 
后 的 向 量 的 新 维度 ( 基 向 量 ) 与 这 些 最 大 方差 方向 保持 一 致 。" 基 向 量 ”是 新 向 量 空间 的 坐标 轴 ， 
与 本 章 开始 时 思想 实验 中 的 3 个 六 维 主题 向 量 类 似 。 每 个 维度 〈 轴 ) 都 变 成 了 词 频 的 组 合 ， 而 不 
是 单个 词 频 ， 因 此 ， 我 们 可 以 把 这 些 维度 看 作 是 构成 语料库 中 各 种 “主题 ”的 词 的 加 权 组 合 。 

机 器 不 能 理解 词 的 组 合 所 表达 的 意义 , 只 能 理解 这 些 词 是 在 一 起 的 。 当 它 看 到 像 “dog”“cat” 
“love” 这 样 的 词 总 是 在 一 起 出 现时 ， 就 会 把 它们 放 到 一 个 主题 中 。 它 并 不 知道 这 样 的 主题 可 能 
是 关于 “pets” 的 。 这 个 主题 可 能 包含 很 多 词 ， 包 括 “domesticated” 和 “feral” 这 种 意义 完全 相 
反 的 词 。 如 果 它 们 经 党 一 起 出 现在 同一 篇 文档 中 ,那么 LSA 会 给 它们 赋予 相同 主题 下 的 高 分 。 
这 取决 于 我 们 人 类 ， 看 看 哪些 词 在 每 个 主题 中 有 很 高 的 权重 ， 并 给 它们 起 个 名 字 。 

但 是 , 我 们 并 不 需要 通过 为 主题 指定 名 字 来 使 用 它们 。 正 如 前 面 章节 中 我 们 并 没有 分 析 词 干 
还 原 后 的 词 袋 向 量 或 TF-IDF 向 量 中 的 所 有 1000 维 一 样 , 我 们 也 不 必 知 道 所 有 主题 的 含义 。 我 们 
仍然 可 以 用 这 些 新 的 主题 向 量 进行 数学 运算 ， 就 像 在 TF-IDF 向 量 上 做 的 一 样 。 我 们 还 可 以 对 这 





















































































































































































































































© Jurafsky 和 Martin 的 NLP 教材 第 16 章 给 出 了 一 些 很 好 的 可 视 化 例子 和 相关 解释 。 
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些 主题 向 量 进行 加 减 运算 并 佑 算 文档 之 间 的 相似 度 , 与 以 前 不 同 的 是 , 这 里 是 基于 主题 向 量 而 不 
只 是 词 频 向 量 进行 计算 。 

LSA 提供 了 另外 一 条 有 用 的 信息 。 类似 于 TF-IDF 的 IDF 部 分 , LSA 告诉 我 们 向 量 中 的 哪些 
维度 对 文档 的 语义 (含义 ) 很 重要 。 于 是 ,我 们 可 以 丢弃 文档 之 间 方 差 最 小 的 维度 ( 主题 )。 对 
任何 机 器 学 习 算 法 来 说 , 这 些小 方差 的 主题 通常 是 干扰 因素 与 噪声 。 如 果 每 篇 文档 都 有 大 致 相同 
含量 的 某 个 主题 ， 而 该 主题 却 不 能 帮助 我 们 区 分 这 些 文档 , 那么 就 可 以 删除 这 个 主题 。 这 将 有 助 
于 泛 化 向 量 表示 ， 因 此 当 将 LSA 用 于 流水 线 上 从 没 见 过 的 新 文档 时 ， 即 使 这 篇 文档 来 自 完 全 不 
同 的 上 下 文 ， 它 也 会 工作 得 很 好 。 

LSA 的 这 种 泛 化 和 压缩 实现 了 我 们 在 第 2 章 中 去 掉 停 用 词 时 所 尝试 的 功能 。 但 是 LSA 降 维 
的 结果 要 好 得 多 , 这 是 因为 它 在 某 种 意义 上 是 最 优 的 。 它 会 保留 尽 可 能 多 的 信息 。 它 不 丢弃 任何 
词 ， 而 只 丢弃 某 些 维度 ( 主题 )。 

LSA 将 更 多 的 意义 压缩 到 更 少 的 维度 中 。 我 们 只 需要 保留 高 方差 维度 , 即 语料库 以 各 种 方式 
(高 方差 ) 讨论 的 主要 主题 。 留 下 来 的 每 个 维度 都 成 为 “主题 ”， 包 含 所 有 捕捉 到 的 词 的 某 种 加 权 
组 合 。 


























思想 实验 的 实际 实现 


下 面 从 前 面 提 到 的 思想 实验 出 发 ， 我 们 使 用 一 个 算法 来 计算 一 些 主题 ， 如 “animalness” 
“petness” 和 “cityness”。 我 们 无 法 告知 LSA 算法 想 要 的 主题 到 底 关于 什么 ”， 我 们 只 是 试 一 下 ， 
看 看 会 发 生 什 么 。 对 于 一 个 小 规模 的 短文 档 语料库 ( 如 推 文 、 聊 天 消息 或 几 行 诗歌 )， 只 需要 几 
个 维度 (主题 ) 就 可 以 捕捉 这 些 文档 的 语义 。 具 体 做 法 如 代码 清单 4-2 所 示 。 





代码 清单 4-2 16 个 关于 cat, dog 和 NYC 短 句子 上 的 LSA 主题 - 词 矩 阵 





>>> from nlpia.book.examples.ch04_catdog_lsa_3x6x16\ 
oe import word_topic_vectors 
>>> word_topic_vectors.T.round (1) 

cat dog apple lion nyc love 
top0 -0.6 -0.4 0.5: 003° 30.4. S01 
topl -0.1 -0.3 -0.4 -0.1 
top2 -0.3 0.8 -0.1 -0.5 


上 述 主题 - 词 矩 阵 中 的 每 列 是 词 的 主题 向 量 或 者 每 个 词 对 应 的 主题 向 量 。 该 向 量 中 的 每 个 元 
素 就 像 在 第 2 童 情感 分 析 模 型 中 所 使 用 的 词 得 分 。 这些 向 量 可 以 用 来 表示 任何 机 器 学 习 流水 线 中 
词 的 含义 ,它们 有 时 也 被 称 为 词 的 语义 向 量 。 文 档 中 每 个 词 的 主题 向 量 可 以 相 加 从 而 得 到 该 文档 
的 主题 向 量 。 

令 人 惊讶 的 是 ， 上 述 SVD 创建 的 主题 向 量 类 似 于 在 前 面 的 思想 实验 从 想象 中 提取 出 的 主题 























D 有 一 个 称 为 “learned metrics”( 习 得 性 度量 指标 ) 的 研究 领域 ， 可 以 用 它 来 引导 想 要 关注 的 主题 。 
Lalit Jain, Blake Mason 及 Robert Nowak 的 NIPS 论文 “Learning Low-Dimensional Metrics” o 
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向 量 。 这 里 的 第 一 个 主题 标注 为 topic0， 有 点 儿 像 前 面 提 到 的 “cityness” 主 题 。topic0 HE 
中 apple 和 NYC 的 权重 更 大 。 但 是 topico 在 这 里 的 LSA 主题 排序 中 排名 第 一 ， 而 在 前 面 想象 
的 主题 中 则 排名 最 后 。LSA 根据 主题 的 重要 度 , 即 它们 所 代表 数据 集 的 信息 量 或 方差 大 小 , 对 主 
题 进行 排序 。topic0 对 应 的 维度 方向 和 数据 集中 方差 最 大 的 轴 保 持 一 致 。 我 们 注意 到 关于 城市 
主题 的 方差 比较 大 ， 有 些 句 子 会 使 用 NYC 和 apple， 而 另 一 些 句子 根本 不 会 使 用 这 些 词 。 

topici 看 起 来 和 思想 实验 中 的 所 有 主题 都 不 一 样 。LSA 算法 发 现 , 对 于 要 捕捉 这 篇 文档 本 
质 而 言 , “love” 是 比 “animalness” 更 重要 的 主题 。 最 后 一 个 主题 topic2， 似乎 是 关于 “dog” 
的 ， 也 混合 了 一 点 儿 “love”。“cat” 这 个 词 被 归 为 “anti-cityness” 主 题 (城市 的 反面 )， 这 是 因 
为 “cat” 和 “city” 并 不 经 党 放 在 一 起 。 

下 面 再 做 一 个 简短 的 思想 实验 ， 应 该 可 以 帮助 大 家 理解 LSA 的 工作 机 理 ， 即 算法 是 如 何在 
不 知道 词 的 含义 的 情况 下 创建 主题 向 量 的 。 


文字 游戏 
对 于 下 面 这 个 语句 ， 大 家 能 从 “awas” 的 上 下 文中 猜 出 这 个 词 的 意思 吗 ? 


































































































Awas! Awas! Tom is behind you! Run! 


大 家 可 能 不 会 猜 到 ,Tom 实际 是 马来西亚 婆罗 洲 李 基 公 园 的 阿尔 法 红 毛 猩猩 。 大 家 可 能 也 不 
知道 Tom 已 经 习惯 了 人 类 ， 但 它 很 有 地 盘 意 识 ， 有 时 会 变 得 极 具 攻击 性 。 人 类 内 在 的 自然 语言 
“处 理 器 ”可 能 没有 时 间 有 意识 地 弄 明白 awas 是 什么 意思 ， 直 到 逃 到 安全 的 地 方 为 止 。 

但 是 , 一 旦 大 家 稳 住 呼吸 , 仔细 想 想 , 可 能 会 猜 到 awas 在 印度 尼 西 亚 语 中 的 意思 是 “danger” 
或 “watch out”( 当心 ) 不 考虑 现实 世界 ， 只 把 注意 力 集中 在 语言 上 下 文 及 词 本 身 ， 我 们 经 常 可 
以 把 所 知道 的 很 多 词 的 意义 或 语义 转移 到 不 知道 的 词 上 。 

大 家 有 空 的 时 候 ， 可 以 自己 或 者 和 朋友 ， 试 着 玩 玩 像 上 面 一 样 的 文字 游戏 ， 将 句子 中 的 某 
个 词 替 换 为 外 来 词 甚至 是 自己 造 的 一 个 词 ， 然 后 让 朋友 猜 猜 这 个 词 的 意思 , 或 者 让 他 们 用 英语 词 
填空 。 通 常情 况 下 ， 你 朋友 的 猜测 结果 不 会 过 于 偏离 该 外 来 词 或 者 编造 词 的 正确 翻译 结果 。 
机 器 ， 从 零 开 始 , 没有 一 种 可 以 基于 的 语言 。 因 此 ,它们 需要 的 不 仅仅 是 一 个 简单 的 例子 而 
是 需要 更 多 信息 来 理解 词 的 意义 。 就 像 大 家 看 到 一 个 充满 外 来 词 的 句子 ， 而 机 器 使 用 LSA 后 可 
以 很 好 地 处 理 这 一 问题 ， 即 使 面 对 的 只 是 随机 提取 的 、 包 含 至 少儿 个 大 家 感 兴趣 的 词 的 文档 。 
大 家 能 看 出 来 , 像 句 子 这 样 较 短 的 文档 比 像 文章 或 书籍 这 样 的 大 型 文档 更 适合 上 述 过 程 吗 ? 
这 是 因为 一 个 词 的 意思 通常 与 包含 它 的 句子 中 的 词 的 意思 紧密 相关 。 但 是 , 对 于 较 长 文档 中 相隔 
很 远 的 词 ， 情 况 并 非 如 此 ”。 

LSA 是 一 种 通过 给 机 器 一 些 样 例 来 训练 机 器 识别 词 和 短语 的 意义 (语义 ) 的 方法 。 和 人 类 一 






















































































































































































D 详 见 标题 为 “Mad Libs” 的 网 页 。 
@) 当 Tomas Mikolov 开发 Word2vec 时 考虑 到 了 上 述 问 题 , 他 意识 到 如 果 进 一 步 收 紧 上 下 文 ,就 可 以 聚集 
词 向 量 的 含义 ， 于 是 他 把 上 下 文 限 制 在 5 个 词 以 内 。 
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FE, 机 噩 从 词 的 示例 用 法 中 学 习 语义 要 比 从 字典 定义 中 学 习 更 快 也 更 容易 。 从 示例 用 法 中 提取 词 
的 含义 所 需 的 逻辑 推理 , 要 比 阅 读 字典 中 词 的 所 有 可 能 定义 和 形式 然后 将 其 编码 到 某 个 逻辑 中 所 


需 的 逻辑 推理 少 。 











在 LSA 中 提取 出 词 的 含义 的 数学 方法 称 为 奇异 值 分 解 (SVD )。SVD 来 自 线性 代数 ， 是 LSA 
用 来 创建 类 似 刚才 讨论 的 词 -主题 算 阵 "中 的 向 量 的 数学 工具 。 
最 后 ， 我 们 进行 NLP 实战 : 如 何 让 机 器 能 够 通过 玩 文字 游戏 来 理解 词 的 意义 。 








43 奇异 值 分 解 


奇异 值 分 解 是 LSA 背后 的 算法 。 同 前 面 思想 实验 类 似 ， 我 们 从 只 包含 11 篇 文档 、 词 汇 表 大 
小 为 6 的 语料库 开始 ”: 


>>> from nlpia.book.examples.ch04 catdog lsa sorted\ 
import lsa models, prettify tdm 
>>> bow_svd, tfidf svd 
>>> prettify_tdm(**bow_svd) 
cat dog apple lion nyc love 


text 


1 
1 
t 


rFPoOOmOAA OF WDNHE OC 


0 1 





上 面 是 一 个 文档 - 词 项 矩阵 ， 其 中 的 每 一 和 
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上 上 上 


















































料 o LSA, 很 快 我 们 就 会 在 这 个 黑 盒子 里 达 


= eer Moges) 这 里 使 用 思想 实验 中 的 词汇 表 在 cats_and_dogs 语 


到 最 








NYC is the Big Apple. 
NYC is known as the Big Apple. 


I love NYC! 


I wore a hat to the Big Apple party in NYC. 


1 
alt 


Come to NYC. 


See the Big Apple! 


Manhattan is called the Big Apple. 
New York is a big city for a small cat. 
The lion, a big cat, is the king of the jungle. 








I love my pet cat. 


I love New York City (NYC). 
Your dog chased mycat. 


二 都 是 文档 对 应 的 词 袋 向 量 。 


这 里 我 们 限制 了 词汇 表 的 大 小 以 便 与 前 面 的 思想 实验 保持 一 致 。 同 时 ， 我 们 将 语料库 限制 为 仅 包 

E 11 篇 使 用 了 词汇 表 中 的 6 个 词 的 文档 。 遗憾 的 是 ,排序 算法 和 大 小 有 限 的 词汇 表 创 建 了 儿 个 完全 相 
同 的 词 袋 向 量 (NYC, apple). 但 是 ，SVD 应 该 能 够 “看 到 ”这 一 点 ， 并 将 主题 分 配给 这 对 词 。 

下 面 将 首先 在 词 项 -文档 矩阵 ( 上 述 文档 - 词 项 矩阵 的 转 置 矩 阵 ) 上 使 用 SVD, 但 是 SVD 也 


适用 于 TF-IDF 矩阵 






































或 任何 其 他 向 量 空间 模型 ; 
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>>> tdm = bow_svd['tdm'] 


>>> tdm 


0 


1 





2 3 


4 5 6 a 


9 10 








D 想 了 解 相关 文档 和 上 述 思想 实验 实现 中 的 向 量 数学 ， 可 以 参考 nlpia/book/examples/ch04_*.py 中 的 例子 。 


























这 个 思想 实验 发 生 在 SVD 用 于 实际 自然 语言 语句 之 
© 为 保持 印刷 上 的 简洁 ， 这 里 只 














Ho 幸运 的 是 ， 所 





























越 大 的 语料库 上 运行 SVD， 可 


以 学 到 更 多 的 内 容 。 











的 主题 完全 类 似 。 


选择 了 11 个 短 的 句子 来 做 实验 。 通 过 查看 nlpia 中 的 ch04 示例 并 在 越 来 


104 第 4 章 ， 词 频 背 后 的 语义 





cat 
dog 
apple 
lion 
nyc 
love 


SVD 是 一 种 可 以 将 任何 矩阵 分 解 成 3 个 因子 矩阵 的 算法 ， 而 这 3 “SAREE DA AE 
建 原始 矩阵 。 这 类 似 于 为 一 个 大 整数 找到 恰好 3 个 整数 因子 , 但 是 这 里 的 因子 不 是 标量 整数 ， 而 
是 具有 特殊 性 质 的 二 维 实 矩阵。 通过 SVD 计算 出 的 3 个 因子 矩阵 具有 一 些 有 用 的 数学 性 质 ， 这 
些 性 质 可 以 用 于 降 维和 LSA。 在 线性 代数 课 上 ， 我 们 可 能 已 经 用 过 SVD SRR. HL, R 
们 将 使 用 它 为 LSA 计算 出 主题 (相关 词 的 组 合 )。 

无 论 是 在 基于 词 袋 的 词 项 -文档 矩阵 还 是 基于 TF-IDF 的 词 项 -文档 矩阵 上 运行 SVD, SVD 都 
会 找到 属于 同类 的 词组 合 。SVD 通过 计算 词 项 -文档 矩阵 的 列 ( 词 项 ) 之 间 的 相关 度 来 寻找 那些 
同时 出 现 的 词 "。SVD 能 同时 发 现 文档 间 词 项 使 用 的 相关 性 和 文档 之 间 的 相关 性 。 利 用 这 两 条 信 
息 ，SVD 还 可 以 计算 出 语料库 中 方差 最 大 的 词 项 的 线性 组 合 。 这 些 词 项 频率 的 线性 组 合 将 成 为 
我 们 的 主题 。 我 们 将 只 保留 那些 在 语料库 中 包含 信息 最 多 、 方 差 最 大 的 主题 。SVD 同时 也 提供 
了 词 项 -文档 向 量 的 一 个 线性 变换 ( 旋转 )， 它 可 以 将 每 篇 文档 的 向 量 转换 为 更 短 的 主题 向 量 。 

SVD 将 相关 度 高 ( 因为 它们 经 常 一 起 出 现在 相同 的 文档 中 ) 的 词 项 组 合 在 一 起 ， 同 时 这 一 
组 合 在 一 组 文档 中 出 现 的 差异 很 大 。 我 们 认为 这 些 词 的 线性 组 合 就 是 主题 。 这 些 主题 会 将 词 袋 向 
量 (或 TF-IDF HE ) 转换 为 主题 向 量 ， 这 些 主题 向 量 会 给 出 文档 的 主题 。 主 题 向 量 有 点 儿 像 文 
档 内 容 的 摘要 或 概括 总 结 。 

目前 还 不 清楚 是 谁 提出 了 将 SVD 应 用 于 词 频 来 创建 主题 向 量 的 想法 。 当 初 ， 几 位 语言 学 家 
同时 在 研究 类 似 的 方法 。 他 们 都 发 现 ， 两 个 自然 语言 表达 ( 或 单个 词 ) 之 间 的 语义 相似 度 与 词 或 
表达 被 引用 的 上 下 文 之 间 的 相似 度 成 正比 。 这些 研 究 人 员 包 括 Harris’, Koll’, Isbell’, Dumais”, 
Salton 和 Lesk 以 及 Deerwester o 

SVD (LSA 的 核心 ) 用 数学 符号 表示 如 下 : 


W,, => US. VT 


mxp~ pxp pxn 


SS i eS eS 
oF ofr os & 
i & 
oP oy os & 
oF or a & 
oof eo co eA 
i 
e o oc 6 
oo o oa FP 

















































































































D 这 等 价 于 两 列 (FeSO A PASE To ae) 之 间 点 积 的 平方 根 , 但 是 SVD 提供 了 直接 计算 相关 性 所 
不 能 提供 的 额外 信息 。 

@) Jurafsky 和 Schone 在 其 2000 年 的 论文 “Knowledge-Free Induction of Morphology Using Latent Semantic 
Analysis” 及 报告 中 引用 了 Harris, Z. S. 发 表 于 1951 年 的 论文 “Methods in structural linguistics” 

® Koll, M. (1979) “Generalized vector spaces model in information retrieval” 和 Koll, M. (1979) “Approach to 
Concept Based Information Retrieval” 。 

@ Charles Lee Isbell, Jr. (1998) “Restructuring Sparse High-Dimensional Data for Effective Retrieval” 。 

© Dumais et al. (1988) “Using latent semantic analysis to improve access to textual information” 。 

© Salton, G., (1965) “The SMART automatic document retrieval system” o 

@ Deerwester, S. et al. “Indexing by Latent Semantic Indexing” 。 
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在 上 式 中 , m 为 词汇 表 中 的 词 项 数量 , n 为 语料库 中 的 文档 数量 , p 为 语料库 中 的 主题 数量 。 
我 们 不 是 想得到 更 小 的 维度 吗 ? 我 们 希望 最 终 得 到 比 词 数 更 少 的 主题 , 因此 可 以 使 用 这 些 主题 向 
量 (主题 -文档 矩阵 的 行 ) 作为 原始 TF-IDF 向 量 的 降 维 表示 。 最 终 我 们 会 得 到 这 个 结果 。 但 是 在 
现在 第 一 阶段 ， 我 们 还 是 保留 了 矩阵 中 的 所 有 维度 。 

下 面 几 节 将 给 出 上 述 3 个 矩阵 CU, SAV) 的 形式 。 


43.1 左 奇异 向 量 U 


忆 和 矩阵 包含 词 项 -主题 矩阵 , 它 给 出 词 所 具有 的 上 下 文 信息 。 这 是 NLP 中 最 重要 的 用 于 语 
义 分 析 的 矩阵 。U 矩阵 称 为 “ 左 奇异 向 量 ”"， 因 为 它 包 含 一 系列 行 向 量 ， 这 些 行 向 量 必须 左 乘 
列 向 量 组 成 的 矩阵 ”。 基 于 词 在 同一 文档 中 的 共 现 关系 ，U 给 出 了 词 与 主题 之 间 的 相互 关联 。 
在 截断 (删除 列 ) 之 前 ， 它 是 一 个 方 阵 ， 其 行 数 和 列 数 与 词汇 表 中 的 词 数 (m ) 相同 ， 在 上 例 
中 都 是 6。 如 代码 清单 4-3 所 示 ， 这 里 仍然 得 到 6 个 主题 ( 主题 数目 为 p )， 因 为 我 们 还 没有 截 
Wik THE « 


代码 清单 4-3 Unxp 


>>> import numpy as np 
































>>> U, s, Vt = np.linalg.svd(tdm) A oe 、 R 
>>> import pandas as pd 这 里 重 1 了 前 面 代码 中 
>>> pd.DataFrame(U, index=tdm.index) .round(2) 的 词 项 -文档 矩阵 

0 1 2 3 4 5 


cat -0.04 0.83 -0.38 -0.00 0.11 -0.38 
dog 20400: “0.21 )-=0.18 0277. S039 202.52 
apple -0.62 -0.21 -0.51 0.00 0.49 0.27 
lion -0.00 0.21 -0.18 0.71 -0.39 0.52 
nyc -0.75 -0.00 0.24 -0.00 -0.52 -0.32 
love -0.22 0.42 0.69 0.00 0.41 0.37 


TER, SVD 算法 是 一 个 基本 的 numpy 数学 运算 ， 并 非 一 个 精巧 的 scikit-learn 机 器 学 习 算 法 。 

志和 矩阵 包含 所 有 的 主题 向 量 ， 其 中 每 一 列 主题 向 量 对 应 语料库 中 的 一 个 词 。 这 意味 着 它 可 
以 用 作 一 个 转换 因子 ， 将 词 -文档 向 量 ( TF-IDF 向 量 或 词 袋 向 量 ) 转换 为 主题 -文档 向 量 。 我 
们 只 需 将 U 矩阵 (主题 - 词 矩 阵 ) 乘 以 任何 词 -文档 列 向 量 ， 就 可 以 得 到 一 个 新 的 主题 -文档 向 
量 ,这 是 因为 UU 和 矩阵 中 每 个 元 素 位 置 上 的 权重 或 得 分 ,分 别 代 表 每 个 词 对 每 个 主题 的 重要 程度 。 
这 正 是 我 们 在 前 面 思想 实验 中 所 做 的 事情 ， 也 正 是 这 个 实验 开启 了 在 NYC W “cats” “dogs” 
























































D 如 果 试 图 用 sklearn 中 的 PCA 模型 复 现 这 些 结果 ， 我 们 会 注意 到 它 会 从 号 矩阵 中 获得 这 里 的 词 项 -主题 
和 矩阵, 这 是 因为 输入 数据 集 相 对 于 这 里 的 处 理 进 行 了 转 置 。scikit-learn 总 是 将 数据 作为 行 向 量 进行 排列 ， 
因此 当 使 用 PCA. fit () 或 任何 其 他 sklearn 模型 进行 训练 时 , tam 中 的 词 项 -文档 矩阵 将 被 转 置 为 文档 - 
词 项 矩阵 。 
D 数学 家 称 这 些 向 量 为 左 特征 向 量 或 行 特 征 向 量 。 参 考 维基 百科 的 文章 “Eigenvalues and eigenvectors” o 
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即使 上 面 已 经 有 了 将 词 频 映射 到 主题 所 需 的 因子 和 矩阵， 我 们 仍 将 解释 SVD 所 提供 的 其 余 因 
子 矩 阵 以 及 如 何 使 用 这 些 和 矩阵 。 


43.2 ”奇异 值 向 量 S 


Sigma 或 S 矩阵 是 一 个 对 角 方 阵 ， 其 对 角 线 上 的 元 素 主题 即 “ 奇 异 值 ””。 奇 异 值 给 出 了 在 
新 的 语义 ( 主题 ) 向 量 空间 中 每 个 维度 所 代表 的 信息 量 。 对 角 和 矩阵 只 有 在 从 左上 角 到 右 下 角 的 对 
角 线 上 才 包 含 非 零 值 ， 而 $ 矩阵 的 其 余 元 素 都 是 0。 因 此 ，numpy 通过 以 数组 的 形式 返回 奇异 值 
来 节省 空间 ， 但 是 也 可 以 使 用 numpy .diag 函数 轻松 地 将 其 转换 为 对 角 和 矩阵 ， 如 代码 清单 4-4 
所 示 。 


代码 清单 4-4 Spx 


>>> s.round(1) 
array ([3.2, 2.2, 1.8, 1..-7 O88; 0251) 
>>> S = np.zeros((len(U), len(Vt))) 
>>> pd.np.fill_diagonal(S, s) 
>>> pd.DataFrame(S) .round (1) 

0 1 2 3 4 5 6 7 8 9 1 
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同志 矩阵 一 样 ，6 个 词 6 个 主题 的 语料库 的 8 矩阵 有 6 行 (Pp )， 但 是 它 有 很 多 列 (n ) 者 
是 0。 每 篇 文档 都 需要 一 个 列 向 量 来 表示 , 这 样 就 可 以 将 8 乘 以 后 面 马上 要 学 到 的 文档 -文档 抵 
阵 Fr。 因为 目前 还 没有 通过 截断 该 对 角 敌阵 来 降 维 , 所 以 词汇 表 中 的 词 项 数 就 是 主题 数 6CP ): 
这 里 的 维度 ( 主题 ) 是 这 样 构造 的 ; 第 一 个 维度 包含 关于 语料库 的 最 多 信息 ( 前 面 已 解释 的 方 
A) 这样， 当 想 要 截断 主题 模型 时 ， 可 以 一 开始 将 右 下 角 的 维度 归 零 ， 然 后 往 左上 角 移 动 。 
当 截断 主题 模型 造成 的 错误 开始 对 整个 NLP 流水 线 错 误 产生 显著 影响 时 ， 就 可 以 停止 将 这 些 
奇异 值 归 零 。 

提示 ”这 是 我 们 之 前 提 到 过 的 技巧 。 对 于 NLP 和 大 多 数 其 他 应 用 ， 我 们 不 希望 在 主题 模型 中 保留 

方差 信息 。 将 来 处 理 的 文档 可 能 不 会 与 完全 一 样 的 主题 相关 。 

在 大 多 数 情况 下 ， 最 好 将 8 矩阵 的 对 角 线 元 素 设置 为 1， 从 而 创建 一 个 矩形 单位 年 阵 ， 它 只 
是 重 塑 了 V7" 文 档 -文档 答 阵 ,使 之 兼容 于 叫 词 -主题 矩阵 。 这 样 ， 如 果 将 这 个 $ 矩阵 乘 以 一 些 新 
的 文档 向 量 集 ， 就 不 会 使 主题 向 量 向 原始 主题 组 合 ( 分 布 ) 倾斜。 









































D 数学 家 称 这 些 元 素 为 特征 值 。 
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43.3 AASV 


V" 是 一 个 文档 -文档 矩阵 ， 其 中 每 一 列 是 “ 右 奇异 向 量 "。 该 矩阵 将 在 文档 之 间 提 供 共享 语 
义 ， 因 为 它 度量 了 文档 在 新 的 文档 语义 模型 中 使 用 相同 主题 的 频率 。 它 的 行 数 (p ) 和 列 数 与 小 
型 语料库 中 的 文档 数 相同 ， 都 是 11。 具 体 做 法 参见 代码 清单 4-5。 


代码 清单 4-5 Voa 


>>> pd.DataFrame (Vt) .round (2) 

0 1 2 3 4 5 6 7 8 9 10 
-0.44 -0.44 -0.31 -0.44 -0.44 -0.20 -0.01 -0.01 -0.08 -0.31 -0.01 
-0.09 -0.09 0.19 -0.09 -0.09 -0.09 0.37 0.47 0.56 0.19 0.47 
“0216-026 QB2 -0.216 -0.216.:-05.29 022240232 0.27 0252-0232 

0.00 -0.00 -0.00 0.00 0.00 0.00 -0.00 0.71 0.00 -0.00 -0.71 
-0.04 -0.04 -0.14 -0.04 -0.04 0.58 0.13 -0.33 0.62 -0.14 -0.33 
-0.09 -0.09 0.10 -0.09 -0.09 0.51 -0.73 0.27 -0.01 0.10 0.27 
-0.57 0.21 O.11 0.33 -0.31 0.34 0.34 -0.00 -0.34 0.23 0.00 
“0232+ O24) 05257-0263 O24. 0.07) CO 0200) -0..07 <0218" 1 .0:..00 
-0.50 0.29 -0.20 0.41 0.16 -0.37 -0.37 -0.00 0.37 -0.17 0.00 
-0.15 -0.15 -0.59 -0.15 0.42 0.04 0.04 -0.00 -0.04 0.63 -0.00 

0 -0.26 -0.62 0.33 0.24 .0 0.09 0.09 -0.00 -0.09 -0.23 -0.00 


就 像 S 矩阵 一 样 ， 当 把 新 的 词 -文档 向 量 转换 成 主题 向 量 空间 时 ， 可 以 忽略 VTE, FATT 
仅仅 使 用 斑 :来 检查 主题 向 量 的 准确 性 ， 以 重建 用 于 “训练 ”该 矩阵 的 原始 词 -文档 向 量 。 
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4.3.4 SVD RH fl 


如 果 你 以 前 使 用 自然 语言 文档 进行 过 机 器 学 习 , 那么 可 能 会 注意 到 ,相对 于 在 scikit-learn 和 
其 他 软件 包 中 习惯 看 到 的 内 容 ,， 这 里 的 词 项 -文档 矩阵 是 “翻转 ”( 转 置 ) 的 。 在 第 2 章 末 尾 的 朴 
素 贝 叶 斯 情感 模型 和 第 3 章 的 TF-IDF 向 量 中 , 我 们 将 训练 集 创 建 为 一 个 文档 - 词 项 矩阵 。 这 就 是 
scikit-learn 模型 所 需要 的 方向 。 机 器 学 习 训 练 集 对 应 的 样本 -特征 矩阵 中 的 每 一 行 都 是 一 篇 文档 ， 
而 每 一 列 都 代表 该 文档 的 一 个 词 或 特性 。 但 是 要 直接 进行 SVD 线性 代数 运算 时 ， 和 矩阵 需要 转换 
成 词 项 -文档 格式 。 


重要 说 明 和 矩 阵 的 命名 和 大 小 描述 先 由 行 开 始 ， 然 后 才 是 列 。 因 此 ， 词 项 -文档 矩阵 的 行 代 表 词 ， 列 
代表 文档 。 和 矩阵 的 维 数 ( 大 小 ) 描 述 也 是 如 此 。 一 个 2 x3 矩阵 有 2 行 和 3 列 ,这 意味 着 np.shape () 
的 结果 为 (2，3) ,而 Len() 的 结果 为 2。 


在 训练 机 器 学 习 模型 之 前 , 不 要 忘 了 将 词 项 -文档 矩阵 或 主题 -文档 矩阵 转 回 到 scikit-learn 中 
规定 的 方向 。 在 scikit-learn F, NLP 训练 集中 的 每 一 行 都 应 该 包含 与 文档 ( 电子 邮件 、 短 消息 、 
句子 、 网 页 或 任何 其 他 文本 块 ) 相关 的 特征 向 量 。 在 NLP 训练 集中 ， 向 量 是 行 向 量 。 而 在 传统 






















































































D 实际 上 ,在 skleam 中 ,PCA 模型 并 没有 翻转 文档- 词 项 矩阵 , 只 是 翻转 了 SVD 和 矩阵 的 数学 运算 。 因 此 ,scikit-leam 
中 的 PCA 模型 忽略 了 忌 矩 阵 和 3 和 矩阵， 只 使 用 王 矩 阵 将 新 的 文档 - 词 项 行 向 量 转换 为 文档 -主题 行 向 量 。 
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的 线性 代数 运算 中 ， 向 量 通常 被 认为 是 列 向 量 。 

在 下 一 节 中 , 我 们 将 与 大 家 一 起 训练 一 个 scikit-learnTruncatedSVD 转换 器 ,， 它 会 将 词 袋 向 量 
转换 为 主题 -文档 向 量 。 然 后 将 这 些 向 量 转 置 回来 得 到 机 器 学 习 训练 集 的 行 ， 这 样 就 可 以 在 这 些 
文档 -主题 向 量 上 训练 一 个 scikit-learn (sklearn ) 47287. 

警告 ”如果 使 用 scikit-learn， 必 须 将 特征 -文档 矩阵 (在 sklearn 中 通常 称 为 X) 转 置 ， 以 创建 一 个 

文档 -特征 和 矩阵， 然后 将 其 传递 到 模型 的 .fit () 和 .Preqdict() 方 法 中 。 训 练 集 和 矩阵 中 的 每 一 行 都 

应 该 是 特定 样本 文本 ( 通常 是 文档 ) 的 特征 向 量 。 











4.3.5 ”主题 约 简 

现在 我 们 得 到 了 一 个 主题 模型 , 它 可 以 将 词 频 向 量 转 换 为 主题 权重 向 量 。 但 是 因为 主题 数 和 词 数 一 
样 多 ,所 以 得 到 的 向 量 空间 模型 的 维 数 和 原来 的 词 袋 向 量 一 样 多 。 刚 才 我 们 创建 了 一 些 新 闻 并 将 它们 命 
名 为 主题 ， 因 为 它们 以 不 同 的 比例 将 词组 合 在 一 起 。 到 目前 为 止 ， 我 们 还 没有 减少 维 数 。 

这 里 可 以 忽略 8 矩阵， 因为 志和 矩阵 的 行 和 列 已 经 排列 妥当 ， 以 使 最 重要 的 主题 (具有 最 大 的 奇 
异 值 ) 都 在 左边 。 可 以 忽略 5S 的 另 一 个 原因 是 , 将 在 此 模型 中 使 用 的 大 部 分 词 -文档 向 量 ( 如 TF-IDF 
向 量 )， 都 已 经 进行 了 归 一 化 处 理 。 最 后 ， 如 果 这 样 设 置 的 话 ， 它 只 会 生成 更 好 的 主题 模型 。 

因此 ， 我 们 开始 砍 掉 U 右边 的 列 。 但 是 稍 等 一 下 ， 到 底 需 要 多 少 个 主题 才 足 以 捕 提 文档 的 
本 质 呢 ? 度量 LSA 精确 率 的 一 种 方法 是 看 看 从 主题 -文档 矩阵 重 构 词 项 -文档 矩阵 的 精确 率 如 何 。 















































代码 清单 4-6 展示 了 前 面 用 于 演示 SVD 的 9 词 项 11 文档 矩阵 的 重 构 精 确 率 。 
代码 清单 4-6” 词 项 -文档 矩阵 重 构 误 差 





>>> err = [] 
>>> for numdim in range(len(s), 0, -1): 
S[numdim - 1, numdim - 1] = 0 
reconstructed_tdm = U.dot(S) .dot (Vt) 
err.append(np.sqrt (((\ 
reconstructed tdm - tdm).values.flatten() ** 2).sum() 
ae / np.product (tdm. shape) ) ) 
>>> np.array(err) .round (2) 
array([0.06, 0.12, 0.17, 0.28, 0.39, 0.55]) 


当 使 用 奇异 向 量 为 11 篇 文档 重 构 词 项 -文档 矩阵 时 ,截断 的 内 容 越 多 , 误差 就 越 大 。 如 果 大 
家 使 用 前 面 的 3 主题 模型 为 每 篇 文档 重 构 词 袋 向 量 , 那么 将 有 大 约 28% 的 均 方 根 误差 。 图 4-3 显 
示 了 随 着 主题 模型 丢弃 的 维度 越 来 越 多 精确 率 不 断 下 降 的 情况 。 

正如 所 看 到 的 那样 ， 无 论 在 模型 中 使 用 TF-IDF 向 量 还 是 词 袋 向 量 ， 精 确 率 下 降 的 趋势 都 非 
常 相似 。 但 是 ， 如 果 计 划 在 模型 中 只 保留 几 个 主题 的 话 ， 使 用 TF-IDF 向 量 的 效果 会 稍 好 一 些 。 

这 只 是 一 个 简单 的 例子 ,但 是 我 们 可 以 看 到 如 何 使 用 这 样 的 图 来 确定 模型 中 到 底 需 要 保留 多 









































D 参考 有 关 LSA 的 scikit-learn 文档 。 
@) Levy, Goldberg 和 Dagan 在 2015 年 发 表 的 “Improving Distributional Similarity with Lessons Learned from 
Word Embeddings”, 
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少 个 主题 ( 维度 )。 在 茶 些 情况 下 ,在 去 掉 了 词 项 -文档 矩阵 中 的 几 个 维度 之 后 ,我 们 可 能 会 发 现 
获得 了 完美 的 精确 率 ， 大 家 能 猜 到 是 什么 原因 吗 ? 
LSA 模 型 精确 率 





一 ec 
一 TE-IDF 词 项 -文档 短 阵 














重 构 精 确 率 
































0 2 3 4 5 6 
去 掉 的 维 数 


图 4-3 ”忽略 的 维度 越 多 ， 词 项 -文档 矩阵 重 构 精 确 率 越 低 

LSA 背后 的 SVD 算法 会 “注意 ”到 某 些 词 总 在 一 起 使 用 ， 并 将 它们 放 在 一 个 主题 中 。 这 就 
是 它 可 以 “无 偿 ” 获 得 几 个 维度 的 原因 。 即 使 不 打算 在 流水 线 中 使 用 主题 模型 ，LSA (SVD ) 也 
可 以 是 为 流水 线 压缩 词 -文档 矩阵 以 及 识别 潜在 复合 词 或 六 gram 的 一 种 好 方法 。 


AA 主 成 分 分 析 


当 SVD 用 于 降 维 ( 就 像 之 前 实现 LSA 所 做 的 那样 ) 时 ， 主 成 分 分 析 (PCA ) 是 SVD WA 
一 个 叫 法 。scikit-learn 中 的 PCA 模型 对 SVD 做 了 一 些 调整 ， 这 将 提高 NLP 流水 线 的 精确 率 。 

一 方面 ，sklearn.PCA 自动 通过 减 去 平均 词 频 来 “中 心 化 ”数据 。 另 一 方面 ， 其 实现 时 使 用 
了 一 个 更 微妙 的 技巧 ， 即 使 用 一 个 名 为 flip_sign 的 函数 来 确切 地 计算 奇异 向 量 的 符号 。 

最 后 ，skleam 中 的 PCA 实现 了 一 个 可 选 的 “白化 ”( whitening ) 步 又 。 这 类 似 于 在 将 词 -文档 
向 量 转换 为 主题 -文档 向 量 时 忽略 奇异 值 的 技巧 。 与 仅仅 将 8 矩阵 中 所 有 的 奇异 值 设 为 1 不 同 ( 参 
考 4.3.2 节 最 后 一 段 ), 白化 技术 可 以 像 sklearn.StandardScaler 转换 一 样 将 数据 除 以 这 些 方 
差 (方差 归 一 化 处 理 )。 这 有 助 于 分 散 数据 ， 使 任何 优化 算法 都 不 太 可 能 迷失 于 数据 的 U 型 “ 半 
道 ” 或 “河流 ”( 指 局 部 集中 的 数据 ) 中 。 而 当 数据 集中 的 特征 相互 关联 时 ， 这 些 现象 就 会 出 现 。 
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© Æ nipia.book.examples.ch04_sklearn_pca_source 中 ， 可 以 找到 一 些 使 用 PCA 中 这 些 函 数 的 实验 ， 这 些 实 
验 可 以 用 于 理解 所 有 这 些微 妙 的 技巧 。 
D 详 见 标题 为 “Deep Learning Tutorial - PCA and Whitening” 的 网 页 。 
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在 将 PCA 应 用 于 真实 世界 中 的 高 维 NLP 数据 之 前 , 我 们 回 过 头 来 看 看 PCA 和 SVD 的 更 可 
视 化 的 表示 ， 这 也 将 有 助 于 我 们 理解 scikit-learn PCA 实现 中 的 API。PCA 对 于 很 多 应 用 都 很 有 
用 ， 所 以 这 种 可 视 化 理解 不 仅仅 对 NLP 有 用 。 在 对 高 维 自 然 语言 数据 进行 尝试 之 前 ， 我 们 将 在 
三 维 的 点 云 上 进行 PCA 处 理 。 

对 于 大 多 数 “ 实 际 ” 问 题 ， 我 们 想 使 用 sklearn.PCA 模型 来 进行 LSA 分 析 。 唯 一 的 例外 是 ， 
要 处 理 的 文档 数 多 于 内 存 中 所 能 容纳 的 文档 数 ， 那 么 在 这 种 情况 下 ， 将 需要 使 用 sklearn 中 的 
IncrementalPCA 模型 ， 或 者 我 们 将 在 第 13 章 中 介绍 的 一 些 缩放 (scaling) 技术 。 


提示 “如果 有 一 个 巨大 的 语料库 ， 并 且 人 迫切 需要 主题 向 量 (LSA )， 那 么 请 跳 到 第 13 章 ， 查 看 

gensim.models.LsiModel。 如 果 单 台 机 器 还 不 足以 快速 完成 任务 的 话 , 请 查看 SVD 算法 的 RocketML 

并 行 化 版 本 。 

下 面 我 们 将 从 一 组 真实 的 三 维 向 量 而 不 是 超过 10 000 维 的 文档 - 词 向 量 开 始 。 三 维 空间 的 可 
视 化 要 比 10000 维 容易 得 多 。 因 为 这 里 只 处 理 三 维 数据 ， 所 以 可 以 直接 使 用 Matplotlib 中 的 
Axes3D 类 来 绘制 。 请 参阅 nlpia 包 中 的 代码 ， 以 创建 类 似 这 样 的 可 旋转 三 维 图 。 

事实 上 , Al 4-4 中 的 点 云 来 自 对 真实 物体 表面 的 三 维 扫描 ， 而 不 是 来 自 一 组 词 袋 向 量 箭头 顶 
端 对 应 的 点 。 但 这 将 帮助 我 们 了 解 LSA 的 工作 机 制 。 在 处 理 高 维 向 量 〈 如 文档 - 词 向 量 ) 之 前 ， 
我 们 会 看 到 如 何 操 作 和 绘制 低 维 小 向 量 。 


















































0.06 0.15 





图 4-4 ”从 真实 物体 点 云 的 “腹部 ”下 方 仰望 
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大 家 能 猜 到 构建 出 这 些 三 维 向 量 的 三 维 对 象 是 什么 吗 ? 本 书 上 只 有 一 个 二 维 的 投影 结果 。 大 
家 能 想到 如 何 编程 使 机 避 能 够 旋转 物体 以 便 得 到 更 好 的 视图 吗 ? 有 关 数 据点 的 统计 数据 是 否 可 
以 用 来 优化 x A, y 轴 与 对 象 的 对 齐 ? 当 在 脑海 中 旋转 图 中 的 这 个 三 维 斑点 时 ， 想 象 一 下 ， 此 时 
沿 x、y 和 z 轴 的 方差 会 随 着 旋转 发 生 怎样 的 变化 。 




















4.4.1 三 维 向 量 上 的 PCA 


我 们 手动 将 点 云 旋 转 到 这 个 特定 的 方向 , 以 最 小 化 图 中 窗口 轴 上 的 方差 。 我 们 之 所 以 这 样 做 
是 为 了 让 大 家 一 下 子 很 难 认 出 它 的 本 来 面目 。 如 果 SVD (LSA ) 对 文档 - 词 向 量 这 样 做 的 话 ， 它 
将 在 这 些 向 量 中 隐藏 信息 。 在 二 维 投影 中 ,我 们 将 这 些 点 琶 加 在 一 起 ,可 以 防止 人 眼 或 机 咒 学 习 
算法 将 这 些 点 分 隔 成 有 意义 的 复 。 但 是 ，SVD 通过 沿 着 高 维 空间 的 低 维 阴影 的 维度 方向 最 大 化 
方差 来 保持 向 量 的 结构 和 信息 内 容 。 这 就 是 机 器 学 习 所 需要 的 , 这 样 每 个 低 维 向 量 就 能 捕捉 到 它 
所 代表 的 东西 的 本 质 。SVD 最 大 化 每 个 轴 上 的 方差 。 而 方差 是 一 个 很 好 的 信息 指标 ， 或 者 说 就 
是 要 找 的 本 质 。 





















































>>> import pandas as pd 

>>> pd.set_option('display.max_columns', 
>>> from sklearn.decomposition import PCA 5 
>>> import seaborn 尽管 在 scikit-learn 中 它 被 称 为 
>>> from matplotlib import pyplot as plt PCA， 但 这 确实 是 SVD 

>>> from nlpia.data.loaders import get_data 


确保 pd.DataFrame 能 以 适合 页 
6) 宽 的 方式 打印 输出 








>>> df = get_data('pointcloud') .sample(1000) 将 三 维 点 云 缩减 为 二 维 投影 
>>> pca = PCA(n_components=2) 以 便 在 二 维 散 点 图 中 显示 
>>> df2d = pd.DataFrame(pca.fit_transform(df), columns=list('xy')) 

>>> df2d.plot(kind='scatter', x='x', y='y') 

>>> plt.show() 


如 果 运 行 上 述 脚本 ， 二 维 投影 的 方向 可 能 会 随机 地 从 左 到 右 翻 转 ， 但 它 不 会 扭转 到 新 的 角 
度 。 我 们 计算 二 维 投影 的 方向 ， 使 最 大 的 方差 始终 与 x 轴 第 一 个 轴 ) 对 齐 ， 第 二 大 的 方差 总 
是 与 y 轴 (也 就 是 阴影 或 投影 的 第 二 维 ) 对 齐 。 但 是 ， 这 些 轴 的 极 性 ( 符号 ) 是 任意 的 ， 因 为 
优化 还 剩 有 两 个 自由 度 ， 于 是 可 以 自由 地 沿 着 沿 x 轴 或 ” 轴 或 者 同时 治 着 这 两 个 轴 翻 转向 量 
(点 ) 的 极 性 。 

如 果 想 尝试 一 下 “ 马 ” 的 三 维 方向 ， 可 以 运行 nlpia/data 目录 下 的 horse_plot.py 脚本 。 实 际 
上 ， 可 能 存在 一 种 更 优化 的 数据 转换 方法 ， 它 去 掉 了 一 个 维度 ， 而 不 会 减少 (大 家 眼中 的 ) 该 数 
据 的 信息 内 容 。 毕 加 索 立 体 主义 的 “眼睛 ”可 能 会 提出 一 种 非 线性 变换 ， 它 可 以 同时 从 多 个 角度 
保持 视图 的 信息 内 容 。 有 一 些 诸如 我 们 即将 在 第 6 章 讨 论 的 谍 入 算法 ， 可 以 做 到 上 述 这 一 点 。 

但 是 , 大 家 难道 不 认为 在 保存 点 云 向 量 数据 中 的 信息 方面 , 传统 的 线性 SVD 和 PCA 做 得 很 
好 吗 ? 三 维 马 的 二 维 投影 难道 不 能 提供 很 好 的 数据 视图 吗 ? 机 器 是 否 能 够 从 马 表面 的 三 维 向 量 
计算 出 的 这 些 二 维 向 量 的 统计 数据 中 学 习 到 一 些 东 西 〈 如 图 4-5 所 示 ) 呢 ? 
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4.4.2 回归 NLP 





-005 


点 云 


我 们 回 到 NLP, 看 看 SVD 如 何 处 理 一 些 自然 语言 文档 。 在 5000 条 标记 为 垃圾 短 消息 (或 非 





垃圾 短 消 息 ) 的 短 消 ， 





息 语 料 中 ， 我 们 使 用 SVD 来 寻找 主 成 分 。 考 虑 到 来 自 大 学 实验 室 的 这 份 短 


消息 语 料 的 词汇 量 和 主题 数 都 有 限 ， 所 以 我 们 把 主题 数 限制 在 16 个 。 我 们 将 同时 使 用 scikit-learn 





PCA 模型 和 截断 的 SVD 模型 来 观察 两 者 是 否 有 所 不 同 。 





截断 的 SVD 模型 被 设计 成 用 于 稀 玻 和 矩阵。 稀疏 敌阵 是 存在 很 多 相同 值 (通常 为 者 或 NaN ) 元 
素 的 矩阵 。NLP WAI TF-IDF 和 矩阵 几乎 总 是 稀 玖 的 ， 因 为 大 多 数 文档 不 会 包含 词汇 表 中 的 大 部 分 
词 。 大 部 分 的 词 频 都 为 0〈 在 将 “幽灵 ”计数 添加 到 所 有 词 频 以 进行 数据 平滑 之 前 )。 

稀 压 矩阵 就 像 大 部 分 都 为 空 的 电子 表格 ,但 是 一 些 有 意义 的 值 分 散在 和 矩阵 中 。 与 
TruncatedsvD 相 比 ，sklearn PCA 模型 使 用 填充 了 所 有 这 些 零 的 密集 矩阵 ， 可 以 提供 更 快 的 解 
决 方案 。 但 sklearn.PCA 浪费 了 很 多 内 存 来 保存 所 有 那些 0。scikit-learn 中 的 TfidfVectorizer 
输出 稀疏 矩阵 ， 因 此 在 将 结果 与 PCA 进行 比较 之 前 ， 需 要 将 这 些 和 矩阵 转换 为 密集 矩阵 。 

Ac, RIM nlpia 包 中 的 DataFrame 加 载 短 消息 : 








>>> import pandas as pd 

>>> from nlpia.data.loaders import get data 
>>> pd.options.display.width = 120 

>>> sms = get_data('sms-spam"') 

>>> index = ['sms{}{}'.format(i, '!'*j) 

= for (i,j) in zip(range(len(sms)), sms.spam) ] 


>>> sms.index = index 


>>> sms.head (6) 


spam 
sms0 0 
smsl 0 


Go until jurong point, crazy.. 
Ok lar... 














这 有 助 于 宽 Pandas DataFrame 
数据 输出 得 更 漂亮 一 些 


- 











我 们 向 短 消 息 的 索引 号 后 面 添加 一 个 
感叹 号 ， 以 使 它们 更 容易 被 发 现 














text 


Available only ... 
Joking wif u oni... 
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sms2! Free entry in 2 a wkly comp to win FA Cup fina... 
sms3 0 U dun say so early hor... U c already then say... 
sms4 0 Nah I don't think he goes to usf, he lives aro... 
sms5! FreeMsg Hey there darling it's been 3 week's n... 


接 下 来 可 以 计算 每 条 消息 的 TF-IDF 向 量 : 


>>> from sklearn.feature_extraction.text import TfidfVectorizer 
>>> from nltk.tokenize.casual import casual_tokenize 


>>> tfidf = TfidfVectorizer (tokenizer=casual_tokenize) 

>>> tfidf_docs = tfidf.fit_transform(raw_documents=sms.text) .toarray () 
>>> len(tfidf.vocabulary_) 

9232 














通过 减 去 平均 值 对 向 量化 的 文档 
>>> tfidf docs = pd.DataFrame (tfidf docs) ( 词 袋 向 量 ) 进行 中 心 化 处 理 


>>> tfidf docs = tfidf_docs - tfidf_docs.mean() 


>>> tfidf_docs.shape 
= B 对 任意 numpy 数组 ，.shape 属 


(4837, 9232) = N j 
>>> sms.spam.sum() 性 给 出 的 每 个 维度 的 长 度 








638 Pandas Series 上 的 .sum() 方 法 的 
行为 类 似 于 对 电子 表格 的 列 求 
和 ， 即 将 所 有 元 素 相 加 

至 此 ， 我 们 有 4837 条 短 消息 ， 其 中 包含 来 自分 词 器 (casual tokenize) 的 9232 个 不 同 的 
1-gram 词 条 。 在 4837 条 短 消息 中 ， 只 有 638 条 (13% ) 被 标记 为 垃圾 短 消 息 。 所 以 这 个 训练 集 不 均 
衡 ， 非 垃圾 短 消息 (正常 的 短 消 息 ) 和 垃圾 短 消息 ( 人们 不 想 要 的 诱惑 和 广告 ) 的 比 大 约 为 8:1。 

针对 这 种 正常 短 消 息 的 抽样 偏差 , 我 们 可 以 通过 减少 任何 对 正常 短 消息 分 类 正确 的 模型 的 “ 回 
报 ” 来 解决 。 但 是 大 型 词汇 表 的 数量 | 严 | 很 难处 理 ， 词 汇 表 中 的 9232 个 词 条 比 要 处 理 的 4837 条 
消息 (样本 ) 还 多 ， 也 就 是 说 ， 词 库 (或 词汇 表 ) 中 包含 的 独立 词 数 ， 比 短 消息 数 还 要 多 。 而 这 
些 短 消息 中 ， 只 有 一 小 部 分 ( 1/8 ) 被 标记 为 垃圾 短 消息 。 这 就 是 造成 过 拟 合 的 原因 。 在 大 型 词 
汇 表 中 ， 只 有 少数 独立 的 词 会 被 标记 为 垃圾 词 。 

过 拟 合 的 意思 是 指 我 们 只 会 在 从 词汇 表 提 取出 几 个 关键 的 词 。 因此 , 垃圾 短 消息 过 滤器 将 依 
赖 这 些 垃圾 词 ,它们 存在 于 那些 过 滤 掉 的 垃圾 短 消息 的 某 处 。 垃圾 消息 散布 者 只 须 使 用 这 些 垃圾 
词 的 同义词 , 就 可 以 很 容易 地 绕 过 过 滤器 。 如 果 词 汇 表 中 没有 包含 这 些 垃圾 消息 散布 者 使 用 的 新 
同义词 ， 那 么 过 滤器 就 会 将 那些 巧妙 构造 的 垃圾 短 消息 误 分 类 为 正常 短 消息 。 

上 述 这 种 过 拟 合 是 自然 语言 处 理 中 的 一 个 固有 问题 。 很 难 找到 一 个 标注 好 的 自然 语言 数据 
集 , 它 包 含 了 人 们 可 能 会 说 的 标注 为 语料库 中 的 所 有 方式 。 我 们 无 法 找到 这 样 一 个 大 规模 的 短 消 
息 数 据 库 , 该 数据 库 包含 了 垃圾 和 非 垃圾 的 所 有 表达 方式 , 而 且 只 有 少数 公司 有 资源 创建 这 样 的 
数据 集 。 所 以 对 我 们 来 说 , 剩 下 的 就 需要 有 针对 过 拟 合 的 应 对 措施 。 我 们 必须 使 用 在 少量 样本 上 
就 可 以 泛 化 得 很 好 的 算法 。 

降 维 是 针对 过 拟 合 的 主要 应 对 措施 。 通 过 将 多 维度 ( 词 ) 合并 到 更 少 的 维度 (主题 ) 中 , 我 
们 的 NLP 流水 线 将 变 得 更 加 通用 。 如 果 降 维 或 缩小 词汇 表 ， 我 们 的 垃圾 短 消 息 过 滤器 将 能 够 处 
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理 更 大 范围 的 短 消息 。 

这 正 是 LSA 所 做 的 事情 ， 它 减少 了 维度 ， 因 此 有 助 于 防止 过 拟 合 (overfitting ) ”。 通 过 假设 
词 频 之 间 的 线性 关系 ，LSA 可 以 基于 小 数据 集 进行 泛 化 。 因 此 ， 如 果 词 “half ”出 现在 包含 诸如 
大 量 “off ”的 垃圾 消息 中 (如 “Half off!1”), LSA 帮助 找到 这 些 词 之 间 的 关联 并 得 到 关联 的 程度 ， 
因此 它 将 垃圾 消息 中 的 短语 “half off ”推广 到 诸如 “80% o 人 在 ”这 样 的 短语 ， 而 且 ， 如果 NLP 数 
据 中 还 存在 “discount” 和 “off ”之 间 的 关联 ， 它 还 可 以 进一步 推广 到 短语 “80% discount”. 

提示 ”有些 人 认为 泛 化 是 机 器 学 习 和 人 工 智能 的 核心 挑战 。 小 样本 学 习 (one-shot learning ) 常 被 用 

来 描述 对 这 类 极致 模型 的 研究 。 这 些 模型 需要 的 数据 量 的 数量 级 远 远 低 于 传统 模型 ， 但 是 它们 能 达 

到 与 传统 模型 相同 的 精确 率 。 





泛 化 NLP 
定 的 消息 集 。 












































流水 线 有 助 于 确保 它 适用 于 更 广泛 的 现实 世界 的 短 消息 集 ， 而 不 仅 仪 是 这 一 组 特 
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下 面 我 们 先 尝试 一 下 scikit-learn 中 的 PCA 模型 。 我 们 已 经 看 到 ， 它 在 实战 当中 已 经 把 三 维 的 
“ 马 ” 变 成 了 二 维 的 “ 笔 ”。 现 在 ， 我 们 把 数据 集 9232 维 的 TF-IDF 向 量 转换 为 16 维 主题 向 量 : 


>>> from sklearn.decomposition import PCA 


>>> pea = 
>>> pea = 





PCA (n_components=16) 
pea. fit (tfidf docs) 


>>> pca_topic_vectors = pca.transform(tfidf_docs) 

>>> columns = ['topic{}'.format(i) for i in range(pca.n_components) ] 

>>> pca_topic_vectors = pd.DataFrame(pca_topic_vectors, columns=columns, \ 
sai index=index) 

>>> pca topic _ vectors.round(3) .headq(6) 


topicO topici, topic2 ates topicl3 topicl4 topicl5 
sms0 0.201 0.003 0.037 mae -0.026 -0.019 0.039 
sms1 0.404 -0.094 -0.078 es -0.036 0.047 -0.036 
sms2! -0.030 -0.048 0.090 sank -0.017 -0.045 0.057 
sms3 0.329 -0.033 -0.035 a -0.065 0.022 -0.076 
sms4 0.002 0.031 0.038 waco 0.031 -0.081 -0.021 
sms5! -0.016 0.059 0.014 morn 0.077 -0.015 0.021 


如 果 大 家 对 这 些 主题 感 兴趣 ， 可 以 通过 检查 权重 来 找 出 每 个 词 的 权重 。 通 过 查看 权重 ， 可 以 
看 到 词 half 和 off (如 在 half off P ) 一 起 出 现 的 频率 ， 然 后 确定 哪个 主题 是 “discount”。 


提示 通过 检查 .components 属性， 可 以 获得 任何 已 经 拟 合 好 的 sklearn 转换 的 权重 。 


首先 ， 我 介 














] 将 词 分 配给 PCA 转换 中 的 所 有 维度 。 这 里 需要 将 词 按 正 确 的 顺序 排列 ， 因 为 


TFIDF Vectorizer 将 词汇 表 存 储 为 字典 ， 并 将 词汇 表 中 的 每 个 词 项 映射 为 索引 号 〈 列 号 ): 





D 更 多 关于 过 拟 合 和 泛 化 的 内 容 请 参考 附录 D. 





>>> tfidf.vocabulary_ 


{'go': 3807, 
"until': 8487, 
'jurong': 4675, 
"point': 6296, 


>>> column_nums, terms 
tfidf.vocabulary_.keys()))) 
>>> terms 


CY; 


we 
了 


‘El, 


"#150', 


zip (*sorted (zip (tfidf.vocabulary_.values(),\ 

















44 ERA 











根据 词 项 频率 对 词汇 表 进 行 排 


Fo SX 








左边 元 素 排 序 的 序列 解 








E 并 在 














排序 后 重 








某 个 不 按照 最 
新 压缩 时 ， 这 











里 的 “zip(*sorted(zip()))” 模 式 十 分 有 用 
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现在 ,我 们 可 以 创建 一 个 包含 权重 的 不 错 的 Pandas DataFrame， 所 有 列 和 行 的 标签 都 处 在 正 


确 的 位 置 上 : 





>>> weights = 
=» index=['topic{}'.format (i) 
>>> pd.options.display.max_columns 
>>> weights.head (4) .round (3) 


topico 
topic1 
topic2 
topic3 


其 中 ， 有 些 列 ( 词 项 ) 并 不 那么 有 意思 ， 
否 能 找到 那些 “half off ” 词 项 以 及 它们 所 属 的 主题 : 


12 


-0.071 
0.063 
0.071 

-0.059 


0. 
OQ. 
0. 
0. 


" 


0. 
0. 


008 -0. 
008 
027 
032 -0. 


# 
001 
000 
000 
001 

















>>> pd.options.display.max_columns 
>>> deals = weights["'! 


round (3) 


>>> deals 


topico 
topicl 
topic2 
topic3 
topic4 
topic5 
topic6 
topic7 
topic8 
topic9 





x “1.00 
! 7) 
as 0.1 
Ges 10,0 
7. 0.2 
#649 “053 
38.2) S001 = 
-26.5 0.1 
=10'59. =0.-5 
LeW4) “OS 
34.6 0.1 
6.90.3 


>>> deals.T.sum() 


topico 
topic1 
topic2 
topic3 


sii. 
es 
12. 
Hh 


9 


Cn © 


r 


Sco Oo G 


所 以 下 面 我 们 来 探索 一 下 tfidf.vocabulary, AA EE 


pd.DataFrame (pca.components_, 
for I in range(16)]) 


columns=terms, 


bs 
0 . 


8 

ei 2 ?ud 
-002 0.001 0.001 
-003 0.001 0.001 
.002 -0.001 -0.001 -0. 
.001 0.001 0.001 


0. 


2 
001 
001 
001 
001 


] :] half off free crazy deal only $ 80 


half of 
S030 “05 
0 . 0 . 
0. 0 . 
Oye J 
“051-0 
a0. 0%, 
-0.4 -0. 
C2810 
=0,.5 =0. 
1.4 -0. 





4 
4 
3 
3 
+2 
7 
9 
8 
5 
9 


f 


crazy 


U we O Ny oS Oe ORD xe 





only 
$2.02. 30 
$338. =0 
0.7 0 
#233, 0 
3.0 0 
“21.8. <0 
-1.4 -0 
-1.9 -0 
3.320 
34350 


NE WR ORF WW H 


SSE OT SE Re SS Re a Re E i 
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topic4 3853; 
topic5 =3:3:./8 
topic6 4.8 
topic7 93 
topic8 40.5 
topic9 3324 


主题 4、8 和 9 似乎 都 包含 “deal”( 交易 ) 主题 的 正 向 情感 。 而 主题 0、3 和 5 似乎 是 反 deal 
的 主题 ， 即 deal 反面 的 消息 : 负 问 deal。 因 此 ， 与 deal 相关 的 词 可 能 对 一 些 主题 产生 正 向 影响 ， 
而 对 男 一 些 主 题 产 生 负 问 影 响 。 并 不 存在 一 个 明显 的 “deal” 主 题 编号 。 

重要 说 明 casual tokenize 分 词 器 将 "80%" 切 分 成 ["80"m，"%"] ,将 "$80 million" 切 分 

成 ["$","80"，"million"]。 因 此 ， 除 非 使 用 LSA 或 2-gram iB, 否则 NLP 流水 线 不 会 注 

意 到 "80%" 和 和 "$80 million" 之 间 的 差别 ,它们 共享 词 条 “80”。 














上 面 对 主 题 的 理解 ， 就 是 LSA 的 挑战 之 一 。LSA 只 允许 词 之 间 的 线性 关系 。 男 外 ， 我 们 通 
常 处 理 的 只 有 小 规模 语料库 。 所 以 LSA 主题 倾向 于 以 人 们 认为 没有 意义 的 方式 将 词组 合 起 来 。 
来 自 不 同 主题 的 几 个 词 将 被 塞 进 单一 维度 〈 主 成 分 ) 中 ， 以 确保 模型 在 使 用 9232 个 词 时 能 够 捕 
捉 到 尽 可 能 多 的 差异 。 












































44.4 基于 截断 的 SVD 的 短 消 息 语 义 分 析 


现在 我 们 可 以 在 scikit-learn 中 试用 一 下 TruncatedSvD 模型 。 这 是 一 种 更 直接 的 LSA 方式 ， 
它 绕 过 了 scikit-learn PCA 模型 ， 因 此 我 们 可 以 看 到 在 PCA 包装 器 内 部 到 底 发 生 了 什么 。 它 可 以 处 理 
PM, 所 以 如 果 我 们 正在 处 理 大 规模 数据 集 , 那么 无 论 如 何 都 要 使 用 TruncatedsvD 而 非 PCA, 
TruncatedSVD 的 SVD 部 分 将 TF-IDF 矩阵 分 解 为 3 个 矩阵 ， 其 截断 部 分 将 丢弃 包含 TF-IDF 矩阵 
最 少 信息 的 维度 。 这 些 被 丢弃 的 维度 表示 文档 集中 变化 最 小 的 主题 ( 词 的 线性 组 合 )， 它 们 可 能 对 语 
料 库 的 总 体 语义 没有 意义 。 它 们 可 能 会 包含 许多 停 用 词 和 其 他 词 ， 这 些 词 在 所 有 文档 中 均匀 分 布 。 

下 面 将 使 用 TruncatedSsVD 仅仅 保留 16 个 最 有 趣 的 主题 , 这些 主题 在 TF-IDF 向 量 中 所 占 
的 方差 最 大 : 




















就 像 在 PCA 中 一 样 ,这 里 将 计算 16 个 主题 , 但 是 See 
FEBE EAR 100 次 (默认 为 5 次 ) 以 确保 这 | 。 全 transpose 在 一 步 当中 分 解 
里 的 结果 几乎 与 在 PCA 中 一 样 精确 TF-IDF 向 量 并 将 它们 转换 为 


主题 向 量 
>>> from sklearn.decomposition import TruncatedSVD 


























>>> svd = TruncatedSVD(n_components=16, n_iter=100) 
>>> svd_topic_vectors svd.fit_transform(tfidf_docs.values) << 
>>> svd_topic_vectors pd.DataFrame (svd topic vectors, columns=columns, \ 





ee index=index) 
>>> svd_topic_vectors.round(3) .head (6) 

tópico topicl topic2 myers topicl3 topicl4 topicl5 
sms0 0.201 0.003 0.037 wie -0.036 -0.014 0.037 
smsl 0.404 -0.094 -0.078 EP -0.021 0.051 -0.042 


44 主 成 分 分 析 


sms2! -0.030 -0.048 0.090 ai -0.020 -0.042 
sms3 0.329. =0.033 "=0.035 nar -0.046 0.022 
sms4 0.002 0.031 0.038 bias 0.034 -0.083 
sms5! -0.016 0.059 0.014 wed 0.075 -0.001 


0.052 


-0.070 
-0.021 


0.020 
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TruncatedSVD 的 这 些 主题 向 量 与 PCA 生成 的 主题 向 量 完 全 相同 ! 这 个 结果 是 因为 我 们 非 
常 灌 慎 地 使 用 了 很 多 的 迭代 次 数 (n_iter )， 并 且 还 确保 每 个 词 项 〈 列 ) 的 TF-IDF 频率 都 做 了 


基于 零 的 中 心 化 处 理 〈 通过 减 去 每 个 词 项 上 的 平均 值 )。 


下 面 花 点 儿 时 间 看 看 每 个 主题 的 权重 , 并 试 着 能 够 理解 它们 。 在 既 不 知道 这 些 主题 的 相关 对 




















象 也 不 知道 高 权重 词 的 情况 下 , 大 家 认为 自己 能 把 这 6 条 短 消息 判定 为 垃圾 或 非 垃圾 短 消息 吗 ? 
也 许 看 看 垃圾 短 消 息 行 标签 后 面 的 “!” 标 签 将 有 助 于 上 述 判定 。 这 虽然 很 困难 ， 但 还 是 有 可 能 
的 ， 特 别 是 对 机 器 来 说 ， 它 可 以 查看 所 有 5000 个 训练 样本 ， 计 算出 每 个 主题 的 阔 值 来 分 离 垃圾 























和 非 垃 圾 短 消息 的 主题 空间 。 





44.5 基于 LSA 的 垃圾 短 消息 分 类 的 效果 




















要 了 解 向 量 空间 模型 在 分 类 方面 的 效果 如 何 , 一 种 方法 是 查看 类 别 内 部 向 量 之 间 的 余弦 相似 
度 与 它们 的 类 别 归属 之 间 的 关系 。 下 面 , 我 们 看 看 对 应 文档 对 之 间 的 余弦 相似 度 是 否 对 这 里 的 特 
定 二 分 类 问题 有 用 。 我 们 计算 前 6 条 短 消 息 对 应 的 前 6 个 主题 向 量 之 间 的 点 积 ， 


任何 垃圾 短 消息 (“sms2!”) 之 间 的 正 的 余弦 相似 度 〈 点 积 ) 更 大 。 





对 每 个 主题 向 量 按照 


























>>> import numpy as np 行 归 一 化 ， 然 后 用 点 积 计算 余弦 距离 
>>> svd_topic_vectors = (svd_topic_vectors.T / np.linalg.norm(\ 





svd_topic_vectors, axis=1)).T 


>>> svd_topic_vectors.iloc[:10].dot(svd_topic_vectors.iloc[:10] 


sms0 smsl sms2! sms3 sms4 sms5! sms6 sms7 


sms0 1.0 0.6 -0.1 0.6 -0.0 03: -003 - FORE 
sms1 0.6 1.0 -0.2 0.8 -0.2 0200 750729 0.2 
sms2! -0.1 -0.2 1.0 -0.2 0.1 0.4 0.0 0.3 
sms3 0.6 0.8 -0.2 1.0 -0.2 #053) 20522053 
sms4 =0.0. -0.2 021. >=0.:2 To 0.2 0.0 0.1 
sms5! -0.3 0.0 0.4 -0.3 0.2 Tag =0%.t 0.1 
sms6 20.23) 2002 0.0 -0.1 0.0 -0.1 1.0 0.1 
sms7 =O. “=0 ;2 03 =0s.3 0.1 0.1 0.1 1.0 
sms8! -0.3 -0.1 0.5 -0.2 -0.4 0.3 -0.2 0.1 
sms9!. -0..3- -Q..1 0.4 -0.1 -0.2 0.4 -0.2 0.4 














我 1 


其 长 度 (2 范 数 ) 进 


门 应 该 会 看 到 ， 

















sms8! sms9! 
-0.3 -0.3 
Orch Oa 
O45 0.4 
-0.2 =0.1 
-0.4 -0.2 
0.3 0.4 
-0.2 -0.2 
0.1 0.4 
1.0 0.3 
0.3 1.0 


.T) .round (1) 


从 上 到 下 读 取 sms0 对 应 的 列 (或 从 左 到 右 读 取 sms0 对 应 的 行 ) 我 们 会 发 现 ，sms0 和 垃圾 
短 消 息 (sms5!、sms6!、sms8!、sms9! ) 之 间 的 余弦 相似 度 是 显著 的 负 值 。sms0 的 主题 向 量 与 垃 

















圾 短 消息 的 主题 向 量 有 显著 不 同 ， 非 垃圾 短 消息 所 谈论 的 内 容 与 垃圾 短 消息 是 不 同 的 。 





对 sms2! 对 应 的 列 进行 相同 的 处 理 ， 我 们 会 看 到 它 与 其 他 垃圾 短 消 , 





有 相似 的 语义 ， 它们 谈论 相似 的 “主题 ”。 











筷 正 相关 。 垃 圾 短 消息 具 





























这 也 是 语义 搜索 的 工作 原理 。 我 们 可 以 使 用 查询 向 量 和 文档 库 中 所 有 主题 向 量 之 间 的 余弦 相 
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似 性 来 查找 其 中 语义 最 相似 的 消息 。 离 该 查询 向 量 最 近 的 文档 ( 最 短 距 离 ) 对 应 的 是 含义 最 接近 
的 文档 。 垃 圾 性 只 是 混入 的 短 消息 主题 中 的 一 种 “意义 ”。 

遗憾 的 是 , 每 个 类 ( 垃圾 短 消息 和 非 垃 圾 短 消息 ) 中 主题 向 量 之 间 的 相似 性 并 没有 针对 所 有 
消息 进行 维护 。 对 这 组 主题 向 量 来 说 , 在 垃圾 短 消息 和 非 垃 圾 短 消息 之 间 画 一 条 直线 把 它们 区 分 
开 十 分 困难 。 我 们 很 难 设 定 某 个 与 单个 垃圾 短 消息 之 间 的 相似 度 阔 值 ， 以 确保 该 阔 值 始终 能 够 正 
确 地 区 分 垃圾 和 非 垃圾 短 消息 。 但 是 ,一 般 来 说 ， 短 消息 的 垃圾 程度 越 低 ， 它 与 数据 集中 另外 的 
垃圾 短 消息 之 间 的 距离 就 越 远 ( 不 太 相 似 )。 如 果 想 使 用 这 些 主题 向 量 构建 垃圾 短 消 息 过 滤器 的 
话 ， 那 么 这 就 是 你 所 需要 的 。 机 器 学 习 算 法 可 以 单独 查看 所 有 垃圾 和 非 垃圾 短 消息 标签 的 主题 ， 
并 可 能 在 垃圾 和 非 垃 圾 短 消息 之 间 绘 制 超 平面 或 其 他 分 界面 。 

在 使 用 截断 的 SVD 时 ,计算 主题 向 量 之 前 应 该 丢弃 特征 值 。scikit-learn 在 实现 TruncatedSVD 
时 采用 了 一 些 技巧 , 使 其 忽略 了 特征 值 (图 表 中 的 Sigma 或 s FHM) 中 的 尺度 信息 ,其 方法 是 : 

E 将 TF-IDF 向 量 按 其 长 度 (2 范 数 ) 对 TF-IDF 词 频 进 行 归 一 化 ; 

E 通过 减 去 每 个 词 项 ( 词 ) 的 平均 频率 进行 中 心 化 处 理 。 

归 一 化 过 程 消 除了 特征 值 中 的 任何 缩放 或 偏离 ， 并 将 SVD 集中 于 TF-IDF 向 量变 换 的 旋转 部 
分 。 通 过 忽略 特征 值 ( 向 量 尺度 或 长 度 )， 可 以 摆好 对 主题 向 量 空间 进行 限定 的 超 立 方 体 ， 这 人 允 
许 我 们 对 模型 中 的 所 有 主题 一 视 同仁 。 如 果 想 在 自己 的 SVD 实现 中 使 用 该 技巧 ， 那 么 可 以 在 计 
算 SVD 或 截断 的 SVD 之 前 ， 按 2 范 数 对 所 有 TF-IDF 向 量 进行 归 一 化 ， 在 PCA 的 scikit-learn 
实现 中 ， 可 以 通过 对 数据 进行 中 心 化 和 白化 处 理 来 实现 这 一 点 。 

如 果 没 有 这 种 归 一 化 ， 出 现 不 频繁 的 主题 会 获得 比 它 们 应 该 获得 的 稍微 多 一 点 的 权重 。 由 于 垃 
圾 性 是 一 个 罕见 的 主题 ， 只 在 13% 的 时 间 发 生 ， 通 过 上 述 归 一 化 或 者 丢弃 特征 值 的 做 法 ， 有 关 它 的 
主题 将 被 赋予 更 大 的 权重 。 通 过 采用 这 种 方法 ， 生 成 的 主题 与 细微 的 特性 ( 如 垃圾 性 ) 更 相关 。 


提示 无 论 使 用 哪 种 算法 或 具体 实现 来 进行 语义 分 析 (LSA、PCA、SVD 、 截 断 的 SVD 或 LDiA ), 
都 应 该 首先 对 词 袋 向 量 或 TF-IDF 向 量 进行 归 一 化 。 否则， 可 能 会 在 主题 之 间 产 生 巨 大 的 尺度 差异 。 
主题 之 间 的 尺度 差异 会 降低 模型 区 分 细微 的 、 出 现 不 频繁 的 主题 的 能 力 。 上 述 问 题 的 另 一 种 考虑 思 
路 是 ， 尺 度 差异 可 以 在 目标 函数 的 等 高 线 图 中 创建 深 “峡谷 ”和 “河流 ”"， 这 使 得 其 他 机 器 学 习 算 
法 很 难 在 这 个 粗糙 的 地 形 中 为 主题 找到 最 佳 国 值 。 






















































































































































































LSA 和 SVD 的 增强 


SVD 在 语义 分 析 和 降 维 方面 的 成 功 ， 促 使 研究 者 对 其 进行 扩展 和 增强 。 这 些 增 强 主要 针对 非 
NLP 问题 ， 我 们 在 这 里 稍微 提 一 下 ， 以 防 以 后 会 遇 到 它们 。 它 们 有 时 与 基于 NLP 内 容 的 推荐 引擎 
一 起 用 于 基于 行为 的 推荐 引擎 。 它 们 被 用 于 自然 语言 词性 统计 "。 任 何 和 矩阵 分 解 或 降 维 方 法 都 可 以 
用 于 处 理 自然 语言 的 词 项 频率 。 因 此 ， 在 大 家 的 语义 分 析 流 水 线 中 也 可 以 找到 下 列 方 法 的 用 途 : 























人 参考 S. Feldman, M. A. Marin, M. Ostendorf 及 M. R. Gupta 的 论文 “Part-of-speech Histograms for Genre 
Classification of Text”. 
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m 二 次 判别 分 析 (quadratic discriminant analysis, QDA ); 

加 ”随机 投影 (random projection ); 

m JEER (nonnegative matrix factorization, NMF ). 

QDA 是 LDA W—PPARTTIE. QDA 创建 的 是 二 次 多 项 式 变换 ， 而 不 是 线性 变换 。 这 些 变 
换 定义 了 一 个 可 以 用 于 区 分 类 的 向 量 空 间 。QDA 向 量 空间 中 的 类 之 间 的 边界 是 二 次 曲面 ， 就 像 
硕 、 球 或 半 管 一 样 。 

随机 投影 是 一 种 与 SVD 类 似 的 和 矩阵 分 解 和 变换 方法 ,但 其 算法 是 随机 的 ， 因 此 每 次 运行 得 
到 的 结果 都 不 一 样 。 但 是 这 种 随机 性 使 它 更 容易 在 并 行 机 器 上 运行 。 在 某 些 情况 下 ( 对 于 某 些 随 
机 运行 )， 可 以 得 到 比 从 SVD (F LSA ) 得 到 的 更 好 的 变换 。 然 而 ， 随 机 投影 很 少 用 于 NLP 问 
题 ， 在 Spacy 或 NLIK 等 NLP 包 中 也 没有 得 到 广泛 的 实现 。 如 果 大 家 认为 它 可 能 适用 于 你 自己 
的 问题 ， 我 们 将 把 随机 投影 方法 留 给 大 家 进一步 研究 探索 。 

在 大 多 数 情况 下 ， 大 家 最 好 坚持 使 用 LSA， 它 在 底层 使 用 了 经 过 验证 的 SVD 算法 。 
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本 章 的 大 部 分 时 间 里 我 们 都 在 讨论 LSA， 以 及 基于 scikit-learn 甚至 简单 的 numpy 的 各 种 实现 
方法 。 对 大 多 数 主题 建 模 、 语 义 搜 索 或 基于 内 容 的 推荐 引擎 来 说 ，LSA 应 该 是 我 们 的 首选 方法 ”。 
它 的 数学 机 理 直 观 、 有 效 , 它 会 产生 一 个 线性 变换 ， 可 以 应 用 于 新 来 的 自然 语言 文本 而 不 需要 训 
练 过 程 ， 并 几乎 不 会 损失 精确 率 。 但 是 ,在 某 些 情况 下 ，LDiA 可 以 给 出 稍 好 的 结果 。 

LDiA 和 前 面 LSA (以 及 底层 的 SVD ) 一 样 做 了 很 多 创建 主题 模型 的 工作 ， 但 是 与 LSA 不 
同 的 是 ，LDiA 假设 词 频 满足 狄 利克 雷 分 布 。 相 对 于 LSA 的 线性 数学 ，LDiA 则 更 精确 地 给 出 了 
将 词 赋 给 主题 的 统计 信息 。 

LDiA 创建 了 一 个 语义 向 量 空间 模型 ( 就 像 前 面 的 主题 向 量 ), 使 用 的 方法 类 似 于 在 本 章 前 面 
的 思想 实验 中 我 们 大 脑 的 工作 方式 。 在 思想 实验 中 , 我 们 根据 词 在 同一 文档 中 的 共 现 频率 手动 地 
将 它们 分 配给 主题 。 然 后 , 文档 的 主题 混合 可 以 由 每 个 主题 中 的 词 的 混合 结果 来 确定 ， 而 这 些 词 
被 分 配 到 每 个 主题 中 。 这 使 得 LDiA 主题 模型 更 容易 理解 ， 因 为 分 配给 主题 的 词 以 及 分 配给 文档 
的 主题 往往 比 LSA 更 有 意义 。 

LDiA 假设 每 篇 文档 都 由 某 个 任意 数量 的 主题 混合 〈 线 性 组 合 ) 而 成 ， 该 数量 是 在 开始 训练 
LDiA 模型 时 选择 的 。LDiA 还 假设 每 个 主题 都 可 以 用 词 的 分 布 ( 词 项 频率 ) 来 表示 。 文档 中 每 个 
主题 的 概率 或 权重 , 以 及 某 个 词 被 分 配 到 一 个 主题 的 概率 , 都 假定 一 开始 满足 狄 利克 雷 概率 分 布 
( 如 果 还 记得 统计 学 ， 则 应 该 知道 这 个 概率 称 为 先 验 )。 这 就 是 该 算法 得 名 的 来 历 。 





































































































D SVD 方法 传统 上 用 于 求解 非 方 阵 的 伪 逆 和 矩阵， 大 家 可 以 想象 一 下 矩阵 求 送 有 多 少 种 应 用 。 

@) Sonia Bergamaschi 和 Laura Po 在 2015 年 对 基于 内 容 的 电影 推荐 算法 的 比较 中 发 现 LSA 约 是 LDiA 精度 的 
两 倍 ， 参 见 他 们 所 著 的 “Comparing LDA and LSA Topic Models for Content-Based Movie Recommendation 
Systems” o 
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4.5.1 LDIiA 思想 


LDiA 是 几 个 英国 遗传 学 家 于 2000 年 开发 出 来 的 算法 ,目的 是 帮助 他 们 从 基因 序列 推断 种 群 
结构 。 斯 坦 福 大 学 的 研究 人 员 ( 包括 Andrew Ng ) 2003 年 在 NLP 中 对 该 方法 进行 了 推广 。 但 是 ， 
不 要 被 提出 这 种 方法 的 大 牌 人 物 所 吓 倒 , 我们 很 快 将 用 Python 的 几 行 代码 来 简要 解释 它 的 要 点 。 
我 们 只 需要 充分 理解 它 , 以 便 对 它 能 做 的 事情 有 直观 的 感受 , 这 样 就 可 以 知道 在 流水 线 中 如 何 使 
用 它 。 

Blei 和 Ng 通过 掷 贷 子 来 实现 前 面 的 思想 实验 从 而 提出 了 这 个 想法 。 他 们 设想 ， 一 台 只 能 拼 
货 子 (生成 随机 数字 ) 的 机 器 如 何 能 写 出 语料库 中 的 文档 。 当 然 , 由 于 我 们 仅 基 于 词 袋 进行 处 理 ， 
因此 在 编写 一 篇 真正 的 文档 时 , 他们 去 掉 了 词 序 对 文档 语义 的 影响 。 他 们 只 对 词 的 混合 统计 数据 
进行 建 模 ， 而 这 些 词 混合 构成 了 每 篇 文档 的 词 袋 。 

他 们 设想 有 一 台 机 器 , 该 机 器 只 有 两 个 选择 项 来 开始 生成 特定 文档 的 词 混 合 结果 。 他们 设想 
文档 生成 器 会 以 某 种 概率 分 布 来 随机 选择 这 些 词 , ERE HOR T A 
在 一 起 创建 一 个 D&D 人 物 卡 ”。 我 们 的 文档 “人 物 卡 ”只 需要 货 子 的 两 轮 投 掷 过 程 。 但 是 货 子 
本 身 很 大 ， 而 且 有 好 几 个 ， 关 于 如 何 组 合 它们 来 为 不 同 的 值 生成 所 需 的 概率 ， 有 十 分 复杂 的 规则 。 
我 们 希望 词 的 数量 和 主题 的 数量 有 特定 的 概率 分 布 , 这 样 它们 就 可 以 匹配 竺 分析 的 真实 文档 中 的 
词 和 主题 的 分 布 。 

货 子 的 两 轮 投 掷 过 程 分 别 代表 : 

(1) 生成 文档 的 词 的 数量 ( 泊 松 分 布 ) 

(2 ) 文档 中 混合 的 主题 的 数量 ( 狄 利克 雷 分 布 ) 

有 了 上 面 两 个 数值 之 后 ， 就 会 遇 到 较 难 的 部 分 ,也 就 是 要 为 文档 选择 词 。 设 想 的 词 袋 生 成 机 
会 在 这 些 主题 上 人 迭代, 并 随机 选择 适合 该 主题 的 词 , 直到 达到 文档 应 该 包含 的 词 数量 ( 见 步骤 1 ) 
为 止 。 确 定 这 些 词 对 应 主题 的 概率 ( 每 个 主题 的 词 的 适宜 度 ) 是 比较 困难 的 。 但 是 一 旦 确定 ,“ 机 
器 人 ”就 会 从 一 个 词 项 -主题 概率 矩阵 中 查找 每 个 主题 的 词 的 概率 。 如 果 大 家 忘 了 这 个 矩阵 的 样 
子 ， 请 回顾 本 章 前 面 的 简单 示例 。 

因此 , 这 台 机 器 只 需要 一 个 泊 松 分 布 的 参数 ( 在 步骤 1 RE) 来 告诉 它 文档 的 平均 
长 度 应 该 有 多 长 ， 以 及 两 个 另外 的 参数 来 定义 设置 主题 数 的 狄 利克 雷 分 布 。 然 后 , 文档 生成 算法 
需要 文档 喜欢 使 用 的 所 有 词 和 主题 组 成 的 词 项 -主题 矩阵 ， 并 且 ， 它 还 需要 喜欢 谈论 的 一 个 主题 
混合 。 

下 面 我 们 将 文档 生成 (编写 ) 问题 转 回 到 最 初 的 问题 ， 即 从 现 有 文档 中 估算 主题 和 词 。 我 们 
需要 为 前 两 个 步骤 测算 或 计算 关于 词 和 主题 的 那些 参数 。 然 后 需要 从 一 组 文档 中 计算 出 词 项 - 主 













































































































































































人 参考 Jonathan K. Pritchard, Matthew Stephens 和 Peter Donnelly 的 论文 “Inference of Population Structure 
Using Multilocus Genotype Data” 。 

@ D&D 指 的 是 “Dungeons & Dragons”, BI (Fe Si FIR), 这 是 一 款 奇 幻 背 景 的 角色 扮演 游戏 ,并 且 是 世界 
上 第 一 个 商业 化 的 桌 上 角色 扮演 游戏 。 游 戏 中 有 人 物 扮演 角色 的 人 物 卡 。 一 一 译 者 注 
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AUER: DOF LDiA 所 做 的 事情 。 

Blei 和 Ng 意识 到 ， 他 们 可 以 通过 分 析 语 料 库 中 文档 的 统计 数据 来 确定 步 又 1 和 步 又 2 的 参 
数 。 例 如 , 对 于 步 又 1, 他 们 可 以 计算 出 语料库 中 文档 的 所 有 词 袋 中 的 平均 词 (或 n-gram ) 数量 ， 
就 像 下 面 这 样 : 

>>> total corpus len = 0 

>>> for document text in sms.text: 

total corpus len += len(casual tokenize (document text)) 
>>> mean document len = total corpus len / len(sms) 


>>> round (mean document len, 2) 
215.35 


或 者 ， 通 过 下 面 一 行 代 码 来 求解 : 


>>> sum([len(casual_tokenize(t)) for t in sms.text]) * 1. / len(sms.text) 
21.35 


请 记 住 , 大 家 应 该 直接 从 词 袋 来 计算 这 个 统计 数据 。 我 们 需要 确保 正在 对 文档 中 的 已 分 词 和 
已 向 量化 〈 已 经 Counter () 过 ) 的 词 计 数 ， 并 确保 在 对 独立 词 项 进行 计数 之 前 ， 已 应 用 任 一 停 
See ty eee 这 样 的 话 ， 我 们 的 计数 就 不 仅 包括 词 袋 向 量词 汇 表 中 的 所 有 词 ( 正 
在 计数 的 所 有 n-gram )， 而 且 包 括 词 袋 使 用 的 那些 词 (如 非 停 用 词 )。 与 本 章 的 其 他 算法 一 样 ， 
LDiA 算法 也 依赖 一 个 词 袋 向 量 空 间 模型 。 

设 定 LDiA 模型 所 需要 的 第 二 个 参数 即 主题 的 数量 更 加 环 手 。 在 一 组 特定 的 文档 中 ， 只 有 在 
为 这 些 主题 分 配 了 词 之 后 , 才能 直接 得 到 主题 的 数量 。 就 像 KNN 、k 均 值 以 及 其 他 的 聚 类 算法 一 
样 ， 我 们 必须 提前 设 定 的 值 。 我 们 可 以 猜测 主题 的 数量 (类似 于 均值 中 的 x， 即 簇 的 数量 )， 
然后 检查 这 是 否 适用 于 这 组 文档 。 一 旦 设 定好 LDiA 要 寻找 的 主题 数量 ， 它 就 会 找到 要 放 和 每 个 

主题 中 的 词 的 混合 结果 ， 从 而 优化 其 目标 函数 。 

我 们 可 以 通过 调整 这 个 “ 超 参数 ”( kx， 即 主题 的 数量 ) “来 对 其 进行 优化 ， 直 到 它 适 合 我 们 的 应 用 
为 止 。 如 果 能 够 度量 表示 文档 含义 的 LDiA 语言 模型 的 质量 ， 就 可 以 可 以 用 于 此 
优化 的 一 个 代价 函数 (cost function ) 是 ，LDiA 模型 在 某 些 分 类 或 回归 问题 (如 情绪 分 析 、 文 档 关 键 词 
标注 或 主题 分 析 ) 中 的 表现 如 何 (好 或 差 ) 我 们 只 需要 一 些 带 标签 的 文档 来 测试 主题 模型 或 分 类 器 。 
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4.5.2 基于 LDiA 主题 模型 的 短 消息 语义 分 析 
LDiA 生成 的 主题 对 人 类 来 说 更 容易 理解 和 解释 。 这 是 因为 经 常 一 起 出 现 的 词 被 分 配给 相同 











D 有 关 LDiA 目标 函数 的 详细 信息 ， 请 参阅 Matthew D. Hoffman, David M. Blei 和 Francis Bach 所 著 的 论 
X “Online Learning for Latent Dirichlet Allocation” 。 

@ Blei 和 Ng 使 用 的 这 个 参数 的 符号 是 theta 而 不 是 ko 

© 克 雷 格 : 鲍 曼 (Craig Bowman ) 是 俄 交 俄 州 迈 阿 密 大 学 ( University of Miami ) 的 一 名 图 书 管 理 员 ， 他 正 

在 使 用 美国 国会 图 书馆 ( Library of Congress ) 的 分 类 系统 作为 古 腾 保 计划 (Gutenberg Project ) 图 书 的 

主题 标签 。 到 目前 为 止 ， 这 肯定 是 我 遇 到 过 的 最 雄心 勃勃 、 最 亲 社 会 的 开放 科学 NLP 项 目 。 
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的 主题 ， 而 人 类 的 期 望 也 是 如 此 。LSA (PCA) 试图 将 原本 分 散 的 东西 分 散 开 来 ， 而 LDiA 则 试 
图 将 原本 接近 的 东西 接近 在 一 起 。 

这 听 起 来 好 像 是 一 回 事 ,但 事实 并 非 如 此 。 其 背后 的 数学 在 优化 不 同 的 东西 ,优化 器 有 不 同 
的 目标 函数 , 因此 它 将 达到 一 个 不 同 的 目标 。 为 了 让 接近 的 高 维 空间 向 量 在 低 维 空间 中 继续 保持 
接近 , LDiA 必须 以 非 线性 的 方式 变换 (扭转 和 扭曲 ) 空间 (和 癌 量 )。 这 种 过 程 很 难 实现 可 视 化 ， 
除非 在 某 个 三 维 空间 上 执行 上 述 操作 并 将 结果 向 量 投影 到 二 维 空间 。 

如 果 想 帮助 其 他 人 并 在 此 过 程 中 学 习 一 些 东 西 , 请 向 nlpia 中 的 horse 示例 ( sre/nlpia/book/ 
examples/ch04_horse.py ) 提交 一 些 额 外 的 代码 。 我 们 可 以 为 horse 中 的 数 千 个 点 创建 词 - 文 档 向 量 ， 
方法 是 将 它们 转换 为 词 x、y 和 z( 即 三 维 向 量 空间 的 维 数 ) 上 的 整数 计数 结果 。 然 后 ， 可 以 从 这 
些 计 数 生 成 人 造 文档 ， 并 将 它们 传递 给 本 章 前 面 所 有 的 LDiA 和 LSA 示例 。 然 后 ， 我 们 就 可 以 
直接 实现 上 述 每 一 种 方法 产生 马 的 不 同 的 二 维 “ 影 子 ”( 投影 ) 的 过 程 的 可 视 化 。 

下 面 我 们 来 看 看 ， 对 于 一 个 包含 数 千 条 短 消息 的 数据 集 ( 按照 是 否 垃圾 来 标记 ) 上 述 方法 的 
应 用 过 程 。 首 先 计 算 TF-IDF 向 量 , 然后 为 每 个 短 消息 (文档 ) 计算 一 些 主题 向 量 。 和 以 前 一 样 ， 
我 们 假设 只 使 用 16 人 (成 分 ) 来 对 垃圾 消息 进行 分 类 。 保 持 主题 ( 维度 ) 的 数量 较 低 有 助 
于 减少 过 拟 合 的 可 能 > 

LDiA 使 用 原始 词 袋 而 不 是 归 一 化 的 TF-IDF 向 量 。 这 里 有 一 个 简单 的 方法 在 
scikit-learn 中 计算 词 袋 向 


>>> from sklearn.feature_extraction.text import CountVectorizer 
>>> from nltk.tokenize import casual_tokenize 
>>> np.random.seed (42) 










































































>>> counter = CountVectorizer (tokenizer=casual_tokenize) 

>>> bow docs = pd.DataFrame (counter. fit_transform(raw_documents=sms.text) \ 

ies .toarray(), index=index) 

>>> column_nums, terms = zip(*sorted(zip(counter.vocabulary_.values(),\ 
counter. 和 -keys()))) 

>>> bow_docs.columns = terms 


我 们 再 次 检查 一 下 ， 看 看 这 里 的 词 频 是 否 对 标记 为 “sms0” 的 第 一 条 短 消 息 有 意义 : 


>>> sms.loc['sms0'].text 
"Go until jurong point, crazy.. Available only in bugis n great world la e 








buffet... Cine there got amore wat...' 
>>> bow_docs.loc['sms0'] [bow_docs.loc['sms0'] > 0].head() 
a 
1 
ee 2 
amore IN 
available 1 


Name: sms0, dtype: int64 


下 面 给 出 了 如 何 使 用 LDiA 为 短 消息 语料库 创建 主题 向 量 的 过 程 : 








D 更 多 关于 过 拟 合 的 不 良 后 果 ， 以 及 泛 化 如 何 有 助 于 解决 这 个 问题 的 信息 ， 参 见 附录 Do 











个 词 
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>>> from sklearn.decomposition import LatentDirichletAllocation as LDiA 


>>> ldia = LDiA(n_components=16, learning_method="'batch"') 


>>> Idi = ldia.fit(b d s N EN 2 
Woe “| LDiA 要 比 PCA 或 SVD 花费 更 长 的 时 间 ,特别 是 在 











>>> ldia.components_.shape RI ea ess n 
(16, 9232) 语料库 包含 大 量 主 题 和 大 量词 的 情况 下 更 是 如 此 





因此 ， 上 述 模型 已 经 将 9232 个 词 ( 词 项 ) 分 配给 16 个 主题 (成 分 )。 下 面 来 看 看 开头 的 几 
， 我 们 了 解 一 下 它们 是 如 何 分 配 到 16 个 主题 中 的 。 记 住 ， 大 家 的 词 和 主题 将 不 同 于 这 里 的 








例子 。LDiA 是 一 种 随机 算法 ， 它 依赖 随机 数 生成 器 做 出 一 些 统计 决策 来 为 主题 分 配 词 。 因 此 ， 
大 家 自己 的 主题 词 权重 将 不 同 于 上 面 给 出 的 结果 ， 但 它们 应 该 大 小 类 似 。 每 次 运行 sklearn. 
LatentDirichletAllocation (或 任何 LDiA 算法 )， 如 果 随 机 种 子 没 有 设 定 为 固定 值 ， 我 
们 将 获得 不 一 样 的 结果 : 














>>> pd.set_option('display.width', 75) 

>>> components = pd.DataFrame(ldia.components_.T, index=terms, \ 
ors columns=columns) 

>>> components.round(2) .head (3) 


topic) topici topic2 ars topicl3 topicl4 topicl5 
! 184.03 15.00 72.22 eee 297.29 41.16 T1320 
a 0.68 4.22 2.41 ets 62.72 T2227 0.06 
# 0.06 0.06 0.06 4.05 0.06 0.06 


因此 ， 感 叹 号 〈! ) 被 分 配 到 大 多 数 主题 中 ,但 它 其 实 是 topic3 中 一 个 特别 重要 的 部 分 ， 


在 该 主题 中 引号 (" ) 几乎 不 起 作用 。 或 许 “topic3” 关 注 情 感 的 强度 或 强调 ， 并 不 太 在 意 数 值 或 


引用 


类 型 


可 以 


看 ， 


。 我 们 来 看 看 : 

>>> components.topic3.sort_values (ascending=False) [:10] 
1 394.952246 
s 218.049724 
to 119.533134 
u 118.857546 
call 111.948541 
£ 107.358914 
; 96.954384 
xX 90.314783 
your 90.215961 
is 75.750037 





因此 , 该 主题 的 前 十 个 词 条 似乎 是 在 要 求 某 人 做 某 事 或 支付 某 事 的 强调 指令 中 可 能 使 用 的 词 
。 如 果 这 个 主题 更 多 使 用 在 垃圾 消息 而 不 是 非 垃 圾 消息 的 话 , 那么 上 述 发 现 十 分 有 趣 。 我 们 
看 到 ， 即 使 这 样 粗略 浏览 一 下 ， 也 可 以 对 主题 的 词 分 配 进行 合理 化 解释 或 推理 。 
EWE LDA 分 类 器 之 前 ， 需 要 为 所 有 文档 〈 短 消息 ) 计算 出 LDiA 主题 向 量 。 下 面 我 们 看 
这 些 向 量 与 SVD 及 PCA 为 相同 文档 生成 的 主题 向 量 有 什么 不 同 : 


>>> ldial6 topic vectors = ldia.transform(bow_docs) 
>>> ldial6 topic vectors = pd.DataFrame (ldial6 topic vectors,\ 





























Ht 
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index=index, columns=columns) 
>>> ldial6_topic_vectors.round(2) .head () 


topicO topicl topic2 eer topicl3 topicl4 topicl5 
sms0 0.00 0.62 0.00 0.00 0.00 0.00 
smsl 0.01 01 -O1 0.01 +01 01 
sms2! 0.00 0.00 0.00 0.00 0.00 0.00 
sms3 0.00 0.00 0.00 0.00 0.00 0.00 
sms4 0.39 0.00 0.33 os 0.00 0.00 0.00 








于 NLP 流水 线 结果 做 出 业务 决策 时 ， 这 是 使 LDiA 主题 更 容易 向 同事 解释 的 做 法 之 一 。 





所 以 LDiA 主题 对 人 类 很 有 效 ， 但 是 对 机 器 呢 ? LDA 分 类 器 将 如 何 处 理 这 些 主题 ? 


4.5.3 LDiA+LDA= 垃 圾 消息 过 滤器 


下 面 我 们 看 看 这 些 LDiA 主题 在 预测 ( 如 消息 的 垃圾 性 ) 时 的 有 效 性 。 我们 将 再 


























主题 向 量 来 训练 LDA 模型 ( 就 像 前 面 使 用 PCA 主题 向 量 所 做 的 一 样 ): 


的 精确 率 。 如 果 和 希望 使 流水 线 可 重 现 结果 ， 就 需要 为 这 些 模 型 和 数据 集 分 割 器 寻找 seed 参数 


>>> from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA 


>>> X_train, X_test, y_train, y_test = 

>» train_test_split(ldial6_topic_vectors, sms.spam, test_size=0.5, 
random_state=271828) 

>>> lda = LDA(n_components=1) 





>>> lda = lda.fit(X_train, y_train) < 
>>> sms['ldial6_spam'] = lda.predict (ldial6_topic_vectors) 
>>> round(float(lda.score(X_test, y_test)), 2) 






























































ae j Idia_topic_vectors 矩阵 的 行列 式 接近 于 零 , 所 以 很 可 能 会 得 到 

ee “变量 是 共 线 的 ”这 类 警告 。 这 种 情况 可 能 发 生 在 小 型 语料库 

是 相 沁 个 错 的 ,但 个 如 47.1 池 上 使 用 LDiA 的 场景 ,因为 这 时 的 主题 向 量 中 有 很 多 0, 并 且 

DA A 一 些 消息 可 以 被 重新 生成 为 其 他 消息 主题 的 线性 组 合 。 另 一 
种 可 能 的 场景 是 ,语料库 中 有 一 些 具有 相似 (或 相同 ) 主题 
混合 的 短 消息 





我 们 可 以 看 到 ， 上 述 主题 之 间 分 隔 得 更 加 清晰 。 在 为 消息 分 配 主题 时 ， 会 出 现 很 多 0。 在 基 


次 使 用 LDiA 








train_test_split() #ll LDiA 的 算法 是 随机 的 ， 所 以 每 次 运行 会 得 到 不 同 的 结果 和 不 同 




















我 们 可 以 在 每 次 运行 时 将 种 子 设置 为 相同 的 值 ， 从 而 获得 可 重 现 结果 。 
共 线 警告 可 能 发 生 的 一 种 情况 是 ， 如 果 文 本 包含 一 些 2-gram 或 3-gram， 其 中 组 成 它们 的 词 


只 同时 出 现在 这 些 2-gram 或 3-gram Fo KE, É 






































o 


的 LDiA 模型 必须 在 这 些 相等 的 词 项 频率 之 


间 任 意 分 配 权 重 。 大 家 能 在 短 消息 中 找到 导致 共 线 性 ( 零 行 列 式 ) 的 词 吗 ?” 大 家 寻找 的 这 种 词 ， 
当 它 出 现时 ， 男 一 个 词 ( 它 的 配对 ) 总 是 在 相同 的 消息 中 。 
我 们 可 以 使 用 Python 而 不 是 手工 进行 搜索 。 首 先 ， 我 们 可 能 只 想 在 语料库 中 寻找 任何 相同 























的 词 袋 向 量 。 这些 向 量 可 能 出 现在 不 完全 相同 的 短 消 ， 





息 中 , 如 “Hi there Bob!” = “Bob, Hi there”, 








因为 它们 有 相同 的 出 现 频 率 。 我 们 可 以 遍历 所 有 词 袋 对 ,以 寻找 相同 的 向 量 。 这些 向 量 肯定 会 在 
LDiA BY LSA 中 引发 共 线 警告 。 
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如 果 没 有 找到 任何 词 袋 向 量 的 精确 副本 , 那么 可 以 遍历 词汇 表 中 所 有 的 词 对 。 然 后 遍历 所 有 
的 词 袋 ， 以 寻找 包含 完全 相同 词 对 的 短 消 息 。 如 果 这 些 词 在 短 消息 中 没有 单独 出 现 过 , 那么 已 经 
在 数据 集中 找到 了 一 个 “ 共 线 ”。 一 些 常见 的 2-gram ( 名 人 的 姓 和 名 总 是 同时 出 现 ) 可 能 会 导致 
这 种 情况 ， 而 且 从 来 没有 分 开 使 用 过 ， 例 如 “Bil Gates” ( 只 要 短 消息 中 没有 其 他 Bill )。 

提示 “ 当 需 要 遍历 一 组 对 象 的 所 有 组 合 ( 词 对 或 三 元 组 ) 时 ， 可 以 使 用 Python 内 置 的 product () HA: 

>>> from itertools import product 


>>> all_pairs = [(wordl, word2) for (wordl, word2) in product (word list, 
word_list) if not wordl == word2] 


我 们 在 测试 集 上 获得 的 精确 率 超 过 90%， 而 且 只 需要 在 一 半 的 可 用 数据 上 进行 训练 。 但 是 ， 
由 于 数据 集 有 限 ， 我 们 确实 得 到 了 关于 特征 共 线 的 警告 ， 这 给 LDA 带 来 了 一 个 待 确定 问题 。 一 
是 使 用 train_test_split 丢弃 了 一 半 的 文档 ， 那 么 主题 -文档 矩阵 的 行列 式 就 接近 于 零 。 如 
果 需 要 的 话 , 可 以 关闭 LDiA n_components 来 解决 这 个 问题 , 但 是 它 往 往 会 将 这 些 主 题 组 合 在 
一 起 ， 而 这 些 主题 是 彼此 的 线性 组 合 〈 共 线 )。 

但 是 , 我 们 看 看 这 里 的 LDiA 模型 与 基于 TF-IDF 向 量 的 高 维 模 型 相 比 结果 如 何 。TF-IDF 向 
量 有 更 多 的 特征 (超过 3000 个 独立 的 词 项 )。 所 以 很 可 能 会 遇 到 过 拟 合 和 弱 泛 化 问题 ， 这 就 是 
LDiA 和 PCA 汉化 的 用 武之 地 : 


>>> from sklearn.feature extraction.text import TfidfVectorizer 

>>> from nltk.tokenize.casual import casual_tokenize 

>>> tfidf = TfidfVectorizer (tokenizer=casual_tokenize) 

>>> tfidf_docs = tfidf.fit_transform(raw_documents=sms.text) .toarray () 
>>> tfidf_docs = tfidf_docs - tfidf_docs.mean(axis=0) 

































































>>> X_train, X_test, y_train, y_test = train_test_split(tfidf_docs,\ 
eon sms.spam.values, test_size=0.5, random_state=271828) 
>>> lda = LDA(n_components=1) < 




















>>> lda = lda.fit(X_train, y_train) < 
>>> round(float(lda.score(X_train, y_train)), 3) > «pps? yk 4 
tb 我 们 将 “假装 ”所 有 短 消息 中 都 

















只 有 一 个 主题 ， 因 为 我 们 只 区 
>>> round(float(lda.score(X_test, y_test)), 3) 只 有 | 为 我 人 只 对 
“spamminess” 主 题 的 一 个 标量 























0.748 7 PERN F m 
使 LDA 模型 拟 合 所 有 数 千 个 特征 需要 相 得 分 感 兴趣 





当 长 的 时 间 。 要 有 耐心 ， 它 用 一 个 9232 
的 超 平面 在 分 割 向 量 空 间 1 
在 训练 集 上 基于 TF-IDF 的 模型 的 精确 率 是 完美 的 ! 但 是 ， 当 使 用 低 维 主题 向 量 而 不 是 TF-IDF 
向 量 训练 时 ， 测 试 集 上 的 精确 率 要 低 很 多 。 
测试 集 的 精确 率 是 唯一 重要 的 精确 率 。 这 正 是 主题 建 模 (LSA ) 应 该 做 的 事情 。 它 可 以 帮助 
我 们 从 一 个 小 型 的 训练 集中 泛 化 出 模型 ， 因 此 它 仍 然 可 以 很 好 地 处 理 使 用 不 同 词组 合 (但 主题 相 
似 ) 的 消息 。 














ANS 





















































45.4 ”更 公平 的 对 比 : 32 个 LDiA 主题 
下 面 我 们 再 试 一 次 , 这 次 会 用 更 多 的 维度 和 更 多 的 主题 也许 LDiA 不 如 LSA (PCA ) 高 效 ， 
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所 以 它 需 要 更 多 的 主题 来 分 配 词 。 下 面 我 们 试 试 32 个 主题 ( 成 分 ): 


>>> ldia32 = LDiA(n_components=32, learning_method='batch') 
>>> ldia32 = 1ldia32.fit (bow_docs) 

>>> ldia32.components_.shape 

(ay Bese) 


现在 我 们 计算 所 有 文档 〈 短 消息 ) 的 新 的 32 维 主题 向 量 : 


>>> ldia32_topic_vectors = ldia32.transform(bow_docs) 





>>> columns32 = ['topic{}'.format(i) for i in range(ldia32.n_components) ] 
>>> ldia32 topic vectors = pd.DataFrame (ldia32_topic_vectors, index=index, \ 


sah columns=columns32) 
>>> ldia32_topic_vectors.round(2).head() 


topicO topicl topic2 boo topic29 topic30 topic31 
sms0 0.00 0.5 0.0 wae 0.0 0.0 0.0 
sms1 0.00 .0 0.0 0.0 0.0 0.0 
sms2! 0.00 0.0 0.0 0.0 0.0 0.0 
sms3 0.00 0.0 0.0 0.0 0.0 0.0 
sms4 0.21 0.0 0.0 0.0 0.0 0.0 


FTA DAA BY, REESE EH bat, TT EL AE SE Tes HHP TT 








下 面 是 LDA 模型 (分 类 器 ) 的 训练 过 程 ， 这 次 我 们 使 用 32 维 的 LDiA 主题 向 量 : 


>>> X_train, X_test, y_train, y_test = 

» train_test_split(ldia32_topic_vectors, sms.spam, test_size=0.5, 
=» random_state=271828) 

>>> lda = LDA(n_components=1) 

>>> lda = lda.fit(X_train, y_train) 


>>> sms['ldia32_spam'] = lda.predict (ldia32_topic_vectors) 

>>> X_train.shape 让 ear 
(2418, 32) shape 是 检查 主题 向 量 维 
>>> round(float(lda.score(X_train, y_train)), 3) 数 的 另 一 种 方法 


0.924 
>>> round(float(lda.score(X_test, y_test)), 3) 


0:927 A 重要 的 是 测试 精确 率 ， 这 里 92.7% 的 测试 结果 与 使 用 
16 维 LDiA 主题 向 量 时 94% 的 测试 结果 相当 























不 要 将 这 里 “主题 ”或 成 分 数量 的 优化 与 前 面 的 共 线 性 问题 混淆 。 增 加 或 减少 主题 的 数量 并 
不 能 解决 或 造成 共 线 问题 。 这 是 底层 数据 造成 的 问题 。 如 果 想 摆脱 这 个 警告 , 那么 需要 将 “噪声 ” 
或 元 数据 以 人 造 词 的 方式 添加 到 短 消息 中 , 或 者 需要 删除 那些 重复 的 词 向 量 。 如果 文 档 中 有 重复 





出 现 多 次 的 词 向 量 或 词 对 ， 那 么 主题 的 数量 优化 也 无 法 解决 这 个 问题 。 





主题 的 数量 越 多 , 那么 主题 的 精确 率 就 可 以 越 高 ， 至少 对 这 个 数据 集 来 说 ,产品 这 一 主题 线 





性 分 隔 得 更 好 。 但 是 这 里 的 效果 仍然 不 如 PCA + LDA 96% 的 精确 率 。 因 此 ，PCA 
消息 主题 向 量 更 有 效 地 展开 ， 这 样 就 允许 使 用 超 平 面 以 更 大 的 消息 间隔 来 分 隔 类 。 











H 
能 使 这 里 的 短 


大 家 可 以 自由 探索 scikit-learn 和 gensim 中 都 提供 的 狄 利 克 雷 分 布 模型 的 源 代码 ， 它 们 有 一 
个 类 似 于 LSA 的 API (sklearn.TruncatedSVD 和 gensim.LsiModel )。 在 后 面 的 章节 中 我 们 讨论 摘 
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要 时 ， 将 向 大 家 展示 一 个 示例 应 用 。LDiA 擅长 挖掘 可 解释 的 主题 ， 如 用 于 摘要 的 主题 ， 
产生 对 线性 分 类 有 用 的 主题 方面 LDiA 也 不 差 。 


深入 工具 箱 











我 们 可 以 在 任何 Python 模块 上 的 _file 属性 中 找到 源 代码 路 径 ,， 如 sklearn. file . # 




















ipython ( jupyter 控制 台 ) 中 ， 我 们 可 以 使 用 ?? 查 看 任何 函数 、 类 或 对 象 的 源 代 码 ， 如 LDA? ? : 





>>> import sklearn 
>>> sklearn. file _ 
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而 且 在 








'/Users/hobs/anaconda3/envs/conda_env_nlpia/lib/python3.6/site-packages/skl 


earn/__init__.py' 

>>> from sklearn.discriminant_analysis\ 

oe import LinearDiscriminantAnalysis as LDA 
>>> LDA?? 


Init signature: LDA(solver='svd', shrinkage=None, priors=None, n_components 


=None, store _covariance=False, tol=0.0001) 
Source: 
class LinearDiscriminantAnalysis(BaseEstimator, LinearClassifierMixin, 
TransformerMixin) : 
"""Tinear Discriminant Analysis 


A classifier with a linear decision boundary, generated by fitting 
class conditional densities to the data and using Bayes' rule. 


The model fits a Gaussian density to each class, assuming that all 
classes share the same covariance matrix. 














上 述 做 法 对 扩展 函数 和 类 不 起 作用 ， 它 们 的 源 代码 隐藏 在 已 编译 的 C++ 模块 中 。 
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这 里 我 们 需要 重 温 第 2 章 和 第 3 章 中 讨论 过 的 那些 相似 度 评 分 方法 , 以 确保 我 们 得 到 的 新 主 














题 向 量 空间 能 够 使 用 这 些 方法 。 请 记 住 ， 我 们 可 以 使 用 相似 度 评 分 (和 距离 )， 根 据 两 篇 文档 的 








表示 向 量 间 的 相似 度 ( 或 距离 ) 来 判断 文档 间 有 多 相似 。 














我 们 可 以 使 用 相似 度 评分 (和 距离 ) 来 查看 LSA 主题 模型 与 第 3 章 的 高 维 TF-IDF 模型 之 间 
的 一 致 性 。 我 们 将 看 到 ， 在 去 掉 了 包含 在 高 维 词 袋 中 的 大 量 信息 之 后 ，LSI 模型 在 保持 这 些 距 离 






































方面 十 分 出 色 。 我 们 可 以 检查 主题 向 量 之 间 的 距离 ,以 及 这 个 距离 是 否 较 好 地 表示 文档 





的 距离 。 我 们 想 要 检查 意义 相近 的 文档 在 新 主题 向 量 空 间 中 彼此 接近 。 








题 之 间 


LSA 能 够 保持 较 大 的 距离 ， 但 它 并 不 总 能 保持 小 的 距离 〈 文 档 之 间 关 系 的 精细 结构 )。 LSA 














底层 的 SVD 算法 的 重点 是 使 新 主题 向 量 空 间 中 所 有 文档 之 间 的 方差 最 大 化 。 























特征 向 量 〈 词 向 量 、 主 题 向 量 、 文 档 上 下 文 向 量 等 ) 之 间 的 距离 驱动 着 NLP 流水 线 或 任何 
机 器 学 习 流 水 线 的 性 能 。 那 么 ， 在 高 维 空间 中 度量 距离 有 哪些 选择 呢 ? 对 一 个 具体 的 NLP 问题 
来 说 , 又 应 该 选择 哪 一 个 呢 ? 这 些 常用 的 例子 中 有 一 些 可 以 从 几何 课程 或 线性 代数 中 所 熟知 , 但 
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很 多 例子 对 我 们 来 说 可 能 是 新 的 。 
m 欧 几 里 得 距离 或 笛 卡 儿 距 离 ， 或 均 方 根 误差 (RMSE): 2 WARK Ly. 
平方 欧 几 里 得 距离 ， 距 离 平 方 和 (SSD): 七。 
余弦 、 夹 角 或 投影 距离 : 归 一 化 点 积 。 
闵可夫 斯 基 距 离 : p wea Lpo 
分 级 距离 ， 分 级 范 数 : p 范 数 或 L, 为 0<p<1。 
城市 街区 距离 、 受 哈 顿 距离 或 出 租车 距离 ， 绝 对 距离 之 和 (SAD ): 1 范 数 或 Li。 
杰 卡 德 距 离 ， 逆 集合 相似 性 
马 哈 拉 诺 比 斯 距离 。 
E 莱 文 斯 坦 距离 或 编辑 距离 。 
计算 距离 的 各 种 方法 都 说 明了 它 的 重要 性 。 除 了 在 scikit-learn 中 成 对 距离 的 实现 , 还 有 许多 
其 他 的 实现 用 于 数学 专业 ， 如 拓扑 学 、 统 计 学 和 工程 学 等 。 为 便于 参考 ,代码 清单 4-7 中 给 出 了 
可 以 在 sklearn.metrics.pairwise 模块 中 找到 的 距离 。 


代码 清单 4-7 sklearn 中 可 用 的 成 对 距离 


"cityblock', 'cosine', 'euclidean', ILIN '12', 'manhattan', 'braycurtis', 
"canberra', 'chebyshev', 'correlation', 'dice', 'hamming', 'jaccard', 
"kulsinski', 'mahalanobis', 'matching', 'minkowski', 'rogerstanimoto', 
"russellrao', 'seuclidean', 'sokalmichener', 'sokalsneath', 'sqeuclidean', 
‘yule' 


距离 通常 由 相似 度 (分 数 ) 计算 ， 反 之 亦 然 ， 因 此 距离 与 相似 度 得 分 成 反比 。 相 似 度 得 分 设 
计 为 0 到 1 之 间 。 典 型 的 距离 与 相似 度 之 间 的 换算 公式 如 下 : 


>>> similarity = 1. / (1. + distance) 























o 






































>>> distance = (1. / similarity) - 1. 

但 是 ， 对 于 0 到 1 之 间 ( 像 概 率 一 样 ) 的 距离 和 相似 度 得 分 ， EA sta : 
>>> similarity = 1. - distance 

>>> distance = 1. - similarity 


余弦 距离 对 于 取 值 范围 有 自己 的 约定 。 两 个 向 量 之 间 的 夹 角 距离 通常 被 计算 为 两 个 向 量 之 间 
最 大 可 能 的 角 间 距 (180° 3} pi 弧度 ) “的 一 个 分 数 表示 。 

因此 ， 余 弱 相 似 度 与 余弦 距离 互 为 倒数 ; 

>>> import math 

>>> angular_distance = math.acos(cosine_ similarity) / math.pi 


>>> distance = 1. / similarity - 1. 
>>> similarity = 1. - distance 


术语 “距离 ”( distance ) Al “KÆ” (length) 经 常 与 术语 “度量 指标 ”( metric ) 混淆 ， 因 为 








D 详 见 标题 为 “Cosine similarity” 的 网 页 。 
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许多 距离 和 长 度 都 是 有 效 和 有 用 的 度量 指标 。 但 不 幸 的 是 ， 并 非 所 有 的 距离 都 可 以 称 为 度量 指标 。 
更 令 人 困惑 的 是 ， 在 正式 的 数学 和 集合 论文 章 中 ， 度 量 指标 有 时 也 称 为 “距离 函数 ”( distance 
function ) 或 “距离 度量 指标 ”( distance metric ) 中 。 
度量 指标 
个 真正 的 度量 指标 必须 列 4 个 数学 性 质 ， 而 距离 或 “得 分 ”可 能 不 具有 这 些 性 质 。 
E FRE. 度量 指标 永远 不 可 能 是 负 的 ,metric(A, B) >= 0。 
图 ”不 可 分 辨 竹 ， 如 果 两 个 对 象 之 间 的 度量 指标 为 零 ， 那 么 它们 是 相同 的 。 如 果 metric (A, B) == 0: 
assert(A == B)o 

m Welt: 度量 指标 不 关心 方向 ，metric(A，B)= metric(B, A)o 
三 角 不 等 式 : 无 法 通过 A 和 C 中 间 的 B 更 快 地 从 A 到 C， 即 metric(R，C) <= metric (A, 
iB) ar mere (3, Co 


一 个 相关 的 数学 术语 度量 (measure )， 既 有 自然 的 英语 含义 ， 又 有 严格 的 数学 定义 。 我 们 会 
在 韦 氏 词典 和 数学 教科 书 的 词汇 表 中 找到 “measure”, 但 它们 对 这 个 词 的 定义 完全 不 同 。 所 以 我 
们 和 数学 教授 谈话 时 要 分 外 小 心 。 

对 数学 教授 来 说 ，measure 是 数学 对 象 构成 的 集合 的 大 小 ， 我 们 可 以 通过 和 集合 的 长 度 来 度量 
Python set 的 大 小 ,但 是 很 多 数学 集合 是 无 限 的 。 在 集合 论 中 ,对象 可 以 以 不 同 的 方式 表示 无 限 。 
度量 是 计算 一 个 数学 集合 的 len () 或 大 小 的 所 有 不 同方 法 ， 这 些 方法 针对 的 是 无 限 的 对 象 。 

定义 ”和 metric 一 样 ，measure 一 词 也 有 精确 的 数学 定义 ， 它 与 对 象 集合 的 大 小 有 关 。 因 此 ， 在 描述 

从 NLP 中 的 对 象 或 对 象 组 合 中 衍生 得 到 的 任何 分 数 或 统计 数据 时 ， 也 应 该 谨慎 使 用 measure 这 个 词 ”。 

但 是 在 现实 世界 中 ， 我们 可 以 度量 各 种 各 样 的 东西 。 当 把 它 用 作 动 词 时 ， 可 能 是 指 用 卷 尺 、 
直 尺 、 磅 秤 或 分 数 来 测量 某 物 。 这 就 是 本 书 中 所 使 用 的 measure 这 个 词 的 方式 , 但 是 我 们 尽量 不 
使 用 它 ， 这 样 数学 教授 就 不 会 责备 我 们 了 。 



















































































































































































































































































41 反馈 及 改进 


前 面 所 有 的 LSA 方法 都 没有 考虑 文档 之 间 的 相似 度 信息 。 我 们 创建 的 主题 对 一 组 通用 规则 来 
说 是 最 优 的 。 在 这 些 特征 ( 主题 ) 提取 模型 的 无 监督 学 习 中 , 没有 任何 关于 主题 向 量 之 间 应 该 多 么 
接近 的 数据 。 我 们 也 不 允许 任何 关于 主题 向 量 在 哪里 结束 或 者 它们 之 间 相 关 性 如 何 的 反馈 。 引 导 
(steering ) 或 “ 习 得 型 距离 指标 ”( learned distance metrics ) 是 在 降 维 和 特征 提取 方面 的 最 新 进展 。 
通过 调整 向 聚 类 和 骸 入 算法 报告 的 距离 分 数 , 我 们 可 以 控制 自己 的 向 量 , 从 而 让 它们 使 一 些 代价 孙 
数 最 小 化 。 通 过 这 种 方式 ， 可 以 “强制 ”向 量 专注 于 我 们 感 兴趣 的 信息 内 容 的 某 个 方面 。 































































































D 详 见 标题 为 “Metric (mathematics)” 的 维基 百科 词 条 。 
© 详 见 标题 为 “Measure (mathematics)” 的 维基 百科 词 条 。 
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在 前 面 关于 LSA 的 小 节 中 ,我 们 忽略 了 文档 的 所 有 元 信息 。 例 如， 对 短 消息 来 说 ,我 们 忽略 
了 消息 的 发 送 者 。 这 是 一 个 很 好 的 主题 相似 度 的 指示 信息 ,可 以 用 于 通知 主题 向 量 的 转换 (LSA). 

在 Talentpair 公司 ， 我 们 使 用 每 篇 文档 主题 向 量 之 间 的 余弦 距离 ， 对 简历 和 职位 描述 进行 匹 
配 。 这 种 做 法 效果 不 错 。 但 我 们 很 快 就 学 到 ， 当 开始 根据 职位 候选 人 和 负责 帮助 他 们 找 工作 的 客 
户 经 理 的 反馈 来 “引导 ”我 们 的 主题 向 量 时 ， 我 们 得 到 了 更 好 的 结果 。 相 比 于 其 他 所 有 向 量 对 ， 
相似 向 量 被 引导 得 更 加 接近 。 

一 种 方法 是 计算 两 个 质心 之 间 的 平均 差 ( 就 像 在 LDA 中 做 的 那样 ), 并 在 所 有 的 简历 或 职位 
描述 癌 量 中 添加 部 分 这 样 的 “偏差 o 这 样 做 应 该 去 掉 简 历 和 职位 描述 之 间 的 平均 主题 问 量 差异 。 
午餐 啤酒 之 类 的 主题 可 能 会 出 现在 职位 描述 中 , 但 绝 不 会 出 现在 简历 中 。 类 似 地 , 一 些 简历 中 可 
能 会 出 现 一 些 奇怪 的 爱好 ,如 水 下 雕塑 , 但 从 来 不 会 出 现在 职位 描述 中 。 引 导 主 题 向 量 可 以 帮助 
我 们 集中 在 感 兴趣 的 建 模 主题 上 。 

如 果 大 家 对 优化 主题 向 量 、 消 除 偏差 感 兴趣 ， 可 以 在 谷歌 学 术 (Google Scholar) 上 搜索 
“learned distance/similarity metric” 或 者 “distance metrics for nonlinear embeddings” ”. HIRA , 
目前 scikit-learn 中 还 没有 实现 这 个 功能 的 模块 。 如 果 你 有 时 间 添 加 一 些 “ 引 导 ” 特 征 的 建议 或 代 
码 到 Scikit-Learn 项 目 ， 那 么 你 会 成 为 一 个 英雄 。 



















































































线性 判别 分 析 


下 面 我 们 在 标注 好 的 短 消 息 数据 集 上 训练 一 个 线性 判别 分 析 (LDA ) 模型 。LDA 的 工作 原 
理 与 LSA 类 似 , 但 是 它 需 要 分 类 标签 或 其 他 分 数 才 能 找到 高 维 空间 中 维度 ( 词 袋 或 TF-IDF 向 量 
中 的 词 项 ) 的 最 佳 线性 组 合 。LDA 没有 最 大 化 新 空间 中 所 有 向 量 之 间 的 分 离 程度 ( 方差 )， 而 是 
最 大 化 了 每 个 类 质心 向 量 之 间 的 距离 。 

但 是 ， 这 意味 着 必须 通过 给 出 样 例 ( 标注 好 的 向 量 ) 来 告诉 LDA 算法 想 对 哪些 主题 建 模 。 
只 有 这 样 , 算法 才能 计算 出 从 高 维 空间 到 低 维 空间 的 最 优 转换 。 得 到 的 低 维 向 量 的 维 数 不 能 超过 
所 能 提供 的 类 标签 或 分 数 的 数量 。 因 为 只 需要 训练 一 个 “垃圾 性 ”主题 ， 下 面 我 们 看 看 一 维 主题 
模型 在 垃圾 短 消息 分 类 方面 能 达到 多 高 的 精确 率 。 
















































































>>> lda = LDA(n_components=1) 

>>> lda = lda.fit(tfidf_docs, sms.spam) 

>>> sms['lda_spaminess'] = lda.predict (tfidf_docs) 

>>> ((sms.spam - sms.lda_spaminess) xx 2.).sum() ** .5 
0.0 

>>> (sms.spam == sms.lda_spaminess) .sum() 

4837 

>>> len(sms) 

4837 





上 面 每 一 个 都 答对 了 ! 哦 ， 等 一 下 。 我 们 之 前 是 怎么 讨论 过 拟 合 的 ?在 TF-IDF 向 量 中 有 10 000 





D 详 见 标题 为 “Distance Metric Learning: A Comprehensive Survey” 的 网 页 。 
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个 词 项 ， 它 可 以 “ 记 住 ”答案 ， 这 一 点 儿 也 不 奇怪 。 下 面 我 们 来 做 一 些 交 叉 验 证 : 
>>> from sklearn.model_selection import cross_val_score 
>>> lda = LDA(n_components=1) 
>>> scores = cross_val_score(lda, tfidf_docs, sms.spam, cv=5) 
>>> "Accuracy: {:.2f} (+/-{:.2f})".format (scores.mean(), scores.std() * 2) 
"Accuracy: 0.76 (+/-0.03)' 
显然 这 个 模型 并 不 好 。 这 里 再 次 给 我 们 的 提醒 是 ， 永 远 不 要 对 模型 在 训练 集 上 的 效果 感到 
兴奋 。 
为 了 确保 76% 的 精确 率 数值 是 正确 的 ， 下 面 我 们 保留 三 分 之 一 的 数据 集 用 于 测试 : 
>>> from sklearn.model_selection import train_test_split 
>>> X train, X test, y_train, y_test = train test split (tfidf docs,\ 
ae sms.spam, test_size=0.33, random_state=271828) 
>>> lda = LDA(n_components=1) 
>>> Ilda.fit(X_train, y_train) 
LinearDiscriminantAnalysis (n_components=1, priors=None, shrinkage=None, 
solver='svd', store covariance=False, tol=0.0001) 
>>> lda.score(X_test, y_test) .round(3) 
0.765 
同样 ,测试 集 的 精确 率 也 较 低 。 因 此 ， 看 起 来 并 不 像 是 数据 抽样 做 得 不 好 ， 个 糟糕 的 
过 拟 合 的 模型 。 
RI 泛 化 能 力 强 的 模型 , 这样 
面 对 新 的 短 消息 时 就 不 会 出 错 : 
>>> X_train, X_test, y_train, y test = 
> train_test_split (pca_topicvectors.values, sms.spam, test_size=0.3, 
> random _state=271828) 
>>> lda = LDA(n_components=1) 
>>> lda.fit(X_train, y_train) 
LinearDiscriminantAnalysis (n_components=1, priors=None, shrinkage=None, 
solver='svd', store covariance=False, tol=0.0001) 
>>> lda.score(X_test, y_test) .round(3) 
0.965 
>>> lda = LDA(n_components=1) 
>>> scores = cross_val_score(lda, pca_topicvectors, sms.spam, cv=10) 
>>> "Accuracy: {:.3f} (+/-{:.3f})".format (scores.mean(), scores.std() * 2) 
"Accuracy: 0.958 (+/-0.022)' 
因此 ， 通 过 使 用 LSA， 我 们 可 以 刻画 一 个 只 有 16 个 维度 的 短 消息 ， 并 且 仍 然 有 足够 的 信息 
将 它们 分 类 为 垃圾 信息 (或 非 垃 圾 信息 ) 我 们 的 低 维 模型 不 太 可 能 过 拟 合 ， 它 应 该 有 很 好 的 泛 


化 能 力 ， 并 且 能 够 对 尚未 看 到 的 短 消息 或 聊天 信息 进行 分 类 。 








现在 我 们 已 经 回 到 了 本 章 开 始 时 的 简单 模型 。 在 尝试 所 有 这 些 语义 分 析 之 前 ， 使 用 简单 的 


























LDA 模型 可 以 获得 更 高 的 精确 率 。 但 是 这 个 新 模型 的 优点 是 ， 现 在 可 以 在 多 于 一 个 的 维度 
建 表示 语句 语义 的 向 量 。 
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48 主题 向 量 的 威力 


通过 使 用 主题 向 量 , 我 们 可 以 比较 词 、 文 档 、 语 句 和 语料库 的 含义 , 我 们 也 可 以 找到 相似 文 
档 和 语句 的 “ 徐 ”。 我 们 不 再 仅仅 根据 词 的 用 法 来 比较 文档 之 间 的 距离 ， 也 不 再 局 限于 完全 基于 
词 的 选择 或 词汇 表 进 行 关 键 词 搜索 和 相关 性 排名 。 现 在 ,我 们 可 以 找到 与 查询 相关 的 文档 ， 而 不 
仅仅 只 是 与 词 统计 信息 本 身 很 好 地 匹配 。 

这 被 称 为 语义 搜索 ， 不 要 与 语义 Web 混淆 。 当 文档 不 包含 查询 词 但 实际 却 与 查询 相关 时 ， 
强大 的 搜索 引擎 通过 语义 搜索 实现 上 述 查 询 和 文档 的 匹配 。 这 些 高 级 搜索 引擎 使 用 LSA 主题 向 
量 , 来 区 分 The Cheese Shop 中 的 Python 包 和 佛罗里达 州 宠物 店 水 族 馆 中 的 蟒蛇 (python), 同 
时 仍然 能 识别 出 它们 与 Ruby gem 的 相似 之 处 。 

语义 搜索 为 我 们 提供 了 一 个 查找 和 生成 有 意义 文本 的 工具 , 但 是 我 们 的 大 脑 并 不 擅长 处 理 高 
维 物体 、 向 量 、 超 平面 、 超 球体 和 超 立 方 体 。 作 为 开发 人 员 和 机 器 学 习 工 程 师 , 我 们 的 直觉 对 于 
三 维 以 上 的 事物 就 会 朋 泪 。 

例如 ， 要 在 二 维 向 量 上 执行 查询 ， 例 如 在 谷歌 地 图 ( Google Maps ) 上 的 经 度 /纬度 位 置 ， 我 
们 可 以 快速 找到 附近 的 所 有 咖啡 店 ， 而 无 须 进 行 太 多 搜索 。 我 们 只 需要 扫描 《用 眼睛 或 代码 ) 附 
近 的 位 置 , 然后 向 外 螺旋 式 搜 索 即 可 。 或 者 ,我们 可 以 用 代码 创建 越 来 越 大 的 边界 框 ， 检查 某 个 
范围 内 的 经 度 和 纬度 。 在 超 空间 中 使 用 超 平面 和 超 立 方 体 来 形成 搜索 的 边界 是 不 可 能 的 。 

正如 Geoffry Hinton 所 说 :“ 要 在 一 个 14 维 空间 中 处 理 超 平面 , 我 们 先 可 视 化 一 个 三 维 空 间 , 然后 
大 声 地 对 自己 说 这 是 14 维 空间 。” 如 果 大 家 在 年 轻易 受 影响 的 时 期 读 过 Abbott ERF 1884 年 的 《 平 
地 》( Flatland )， 那 么 可 能 会 做 得 比 挥 挥手 好 一 点 。 甚 至 大 家 可 以 把 头 从 三 维 世 界 的 窗口 探 出 一 半 ， 
进入 超 空 间 ， 足 以 从 外 面 将 见 那个 三 维 世 界 。 就 像 在 《平地 》 中 一 样 ， 本 章 使 用 了 大 量 二 维 可 视 化 效 
果 来 帮助 探索 超 空 间 中 的 词 在 三 维 世 界 中 留 下 的 阴影 。 如 果 急 于 想 看 看 它们 ,请 跳 到 显示 词 向 量 的 散 
HEFER (scatter matrix ) 部 分 。 我 们 可 能 还 想 回顾 上 一 章 中 的 三 维 词 袋 向 量 ， 并 尝试 想象 一 下 ， 如 果 
在 词汇 表 中 再 添加 一 个 词 ， 以 创建 一 个 具有 语言 意义 的 四 维 世 界 ， 这 些 点 看 起 来 将 会 是 什么 样子 。 

如 果 花 一 点 儿 时 间 去 深入 思考 四 维 空间 , 记 住 这 种 复杂 度 的 爆炸 程度 超过 二 维 到 三 维 的 复杂 
度 的 增长 程度 , 指数 级 超过 从 一 维 数字 世界 到 三 角形 、 正 方形 和 圆 形 所 组 成 的 二 维 世 界 的 复杂 度 
的 增长 程度 。 

注意 一 维 线 、 二 维 人 矩形、 三 维 立方 体 等 各 种 可 能 性 的 爆炸 式 增长 ,通过 了 有 具 有 非 整 数 分形 维 数 的 

奇异 宇宙 ， 如 1.5 维 分 形 。 一 个 1.5 维 的 分 形 具 有 无 限 的 长 度 ， 虽 然 小 于 二 维 "， 却 完全 填充 了 一 个 































































































































































































D 语义 Web 是 结构 化 自然 语言 文本 的 一 种 实践 ， 它 在 HTML 文档 中 使 用 标签 ， 因 此 标签 的 层级 以 及 内 容 
能 够 揭示 网 页 中 元 素 ( 文本、 图 像 、 视 频 ) 之 间 的 关系 。 

@) Python Package Index 的 别名 。 译 者 注 

@ Ruby 是 一 种 编程 语言 ， 有 个 软件 包 叫 gem。 

D 分 形 维度 (参见 下 载 资源 中 的 research-talk.pdf )。 
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二 维 平 面 ! 但 幸运 的 是 ， 这 些 并 不 是 “真实 的 ”维度 "。 除 非 我 们 对 分 数 距 离 度量 (如 p 范 数 ， 其 
公式 中 有 非 整 数 指数 ”) 感 兴趣 ， 否 则 我 们 在 NLP 中 不 必 担 心 这 些 维度 。 


4.8.1 语义 搜索 


当 根 据 文档 中 包含 的 词 或 部 分 词 搜索 文档 时 ， 称 为 全 文 搜索 。 这 就 是 搜索 引擎 所 做 的 事情 。 
它们 将 文档 分 成 块 (通常 是 词 )， 这 些 块 可 以 像 教 科 书 后 面 的 索引 那样 用 倒 排 索引 来 建立 索引 。 
它 利 用 大 量 簿 记 和 猜测 来 处 理 拼写 错误 和 录入 错误 ， 但 效果 非常 好 。 

语义 搜索 也 是 一 种 全 文 搜索 ， 但 它 会 考虑 词 在 查询 和 正在 搜索 的 文档 中 的 含义 。 在 本 章 中 ， 
我 们 已 经 学 习 了 利用 LSA 和 LDIA 这 两 种 方法 计算 主题 向 量 ， 它 们 在 向 量 中 捕捉 了 词 和 文档 的 语 
义 ( 意 义 )。 潜在 语义 分 析 最 初 被 称 为 潜在 语义 索引 的 原因 之 一 是 ， 它 承诺 用 一 个 数值 索引 ( 如 词 
袋 表 和 TF-IDF K ) 来 支持 语义 搜索 。 语义 搜索 将 是 信息 检索 的 下 一 件 大 事 。 

但 与 词 袋 表 和 TF-IDF 表 不 同 的 是 ， 传 统 的 倒 排 索 引 技 术 很 难 对 语义 向 量 表 进行 离散 化 和 索 
引 处 理 。 传 统 的 索引 方法 适用 于 二 值 词 出 现 向 量 、 离 散 向 量 ( 词 袋 向 量 )、 稀 玖 连续 向 量 ( TF-IDF 
向 量 ) 和 低 维 连续 向 量 ( 三维 GIS 数据 )。 但 是 高 维 连续 向 量 , 如 来 自 LSA 或 LDiA 的 主题 向 量 ， 
是 一 个 挑战 。 倒 排 索引 适用 于 离散 向 量 或 二 值 向 量 ， 就 像 二 值 或 整数 型 词 -文档 向 量 表 一 样 ， 因 
为 索引 只 需要 为 每 个 非 零 的 离散 维度 维护 一 个 条 目 , 该 维度 的 值 在 引用 的 向 量 或 文档 中 可 能 存在 
也 可 能 不 存在 。 由 于 TF-IDF 向 量 是 稀 玖 的 ， 大 部 分 为 零 ， 因 此 对 于 大 多 数 文 档 的 大 多 数 维度 ， 
索引 中 不 需要 有 对 应 条 目 。 

LSA( 和 LDiA ) 生成 高 维 、 连 续 和 密集 的 主题 向 量 ( 零 很 少 )。 并 且 ， 语 义 分 析 算 法 无 法 
生成 一 个 高 效 的 用 于 可 扩展 搜索 的 索引 。 事 实 上 ， 前 一 节 中 讨论 的 “ 维 数 灾难 ”问题 使 得 精确 
索引 是 不 可 能 的 。 洪 在 语义 索引 的 “索引 ”是 一 种 希望 ， 而 不 是 现实 ， 所 以 术语 LSI 是 一 个 
容易 误导 的 名 称 。 也 许 这 就 是 LSA 成 为 描述 产生 主题 向 量 的 语义 分 析 算 法 的 更 流行 的 方法 的 
原因 。 

解决 高 维 向 量 问题 的 一 种 方法 是 使 用 局 部 敏感 哈 希 (locality sensitive hash, LSH ) 来 进行 索 
引 。LSH 类 似 于 邮政 编码 , 它 指定 一 个 超 空间 区 域 , 以便 以 后 可 以 轻松 地 再 次 找到 它 。 和 常规 哈 
希 一 样 ， 它 是 离散 的 ， 只 依赖 向 量 中 的 值 。 但 是 一 旦 向 量 超过 约 12 4E, LSH 也 不 是 很 奏效 。 在 
图 4-6 中 ,每 一 行 表示 一 个 主题 向 量 的 大 小 ( 维 数 )， 该 维 数 从 二 维 开始 ， 一 直到 16 维 ， 就 像 之 
前 在 垃圾 短 消息 问题 中 使 用 的 向 量 一 样 。 




















































































































































































































D 分 形 维度 。 

@) 参见 “The Concentration of Fractional Distances”。 

© f PostgreSQL 数据 库 中 的 全 文 索引 往往 基于 字符 的 3-gram， 这 是 为 了 处 理 拼写 错误 和 无 法 解析 成 词 的 
文本 。 

D 对 高 维 数据 聚 类 等 价 于 利用 分 界 框 离散 化 或 者 索引 高 维 数据 ， 关 于 这 些 内 容 可 以 参考 维基 百科 词 条 
“Clustering high dimensional data” 。 

© 详 见 标题 为 “Inverted index” 的 网 页 。 
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维 数 第 100 个 前 1 位 _ 前 2 位 前 10 位 前 100 位 
余弦 距离 是 否 正确 是 否 正 确 是 否 正确 是 否 正确 
2 .00 TRUE TRUE TRUE TRUE 
3 .00 TRUE TRUE TRUE TRUE 
4 .00 TRUE TRUE TRUE TRUE 
5 .01 TRUE TRUE TRUE TRUE 
6 02 TRUE TRUE TRUE TRUE 
7 .02 TRUE TRUE TRUE FALSE 
8 03 TRUE TRUE TRUE FALSE 
9 04 TRUE TRUE TRUE FALSE 
10 .05 TRUE TRUE FALSE FALSE 
11 .07 TRUE TRUE TRUE FALSE 
12 .06 TRUE TRUE FALSE FALSE 
13 .09 TRUE TRUE FALSE FALSE 
14 14 TRUE FALSE FALSE FALSE 
15 14 TRUE TRUE FALSE FALSE 
16 09 TRUE TRUE FALSE FALSE 


























图 4-6 ”语义 搜索 的 精确 率 在 约 12 维 时 下 降 




















4-6 展示 的 是 使 用 LSH 对 大 量 语义 向 量 进 行 索引 时 的 搜索 效果 。 一旦 向 量 的 维 数 超过 16, 
就 很 难 返 回 两 个 好 的 搜索 结果 。 

那么 如 何在 没有 索引 的 情况 下 对 100 维 向 量 进 行 语义 搜索 呢 ? 现在 我 们 已 经 知道 如 何 使 用 
LSA 将 查询 串 转 换 为 主题 向 量 , 还 知道 如 何 使 用 余弦 相似 度 评分 (标量 积 、 内 积 或 点 积 ) 来 比较 
两 个 向 量 的 相似 度 从 而 找到 最 接近 的 匹配 结果 。 要 找到 精确 的 语义 匹配 , 我 们 需要 找到 与 特定 查 
询 (搜索 ) 主题 向量 最 接近 的 所 有 文档 主题 向 量 。 但 如 果 我 们 及 篇 文档 ， 则 必须 对 查询 主题 向 
量 进行 n 次 比较 ,这 里 有 大 量 的 点 积 计 算 。 

我 们 可 以 使 用 矩阵 乘法 将 numpy 中 的 运算 向 量化 ， 但 这 不 会 减少 运算 的 数量 ， 而 只 会 让 运 
算 的 速度 提高 100 倍 。 基 本 的 情况 是 ， 精 确 的 语义 搜索 仍然 需要 对 每 个 查询 进行 0(n) 次 乘法 和 
加 法 运算 ， 因 此 它 的 扩展 只 与 语料库 的 大 小 呈 线 性 关系 。 这 对 大 规模 语料库 ( 如 Google 搜索 或 
维基 百科 语义 搜索 ) 来 说 是 行 不 通 的 。 

这 里 的 关键 是 ， 我 们 为 高 维 向量 设 定 一 个 足够 好 的 索引 方法 即 可 ， 并 不 追求 完美 的 索引 或 
LSH 算法 。 现 在 有 几 个 使 用 LSH 来 高 效 地 实现 语义 搜索 的 开源 实现 ， 它 们 实现 了 一 些 高 效 、 精 
确 的 近似 最 近 领 ( approximate nearest neighbors ) 算法 。 一 些 最 容易 使 用 和 安装 的 工具 有 : 

E Spotify 的 Annoy 软件 包 ” 





























D 对 计算 成 对 距离 的 Python 代码 特别 是 双重 艇 套 的 for 循环 进行 向 量化 处 理 ， 代 码 的 执行 速度 可 以 提高 
约 100 倍 。 参 考 Hacker Noon 的 文章 “Vectorizing the Loops with Numpy”。 
@ Spotify 的 研究 人 员 在 其 GitHub 库 中 对 比 了 annoy 和 其 他 算法 及 实现 的 性 能 。 
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E Gensim 的 gensim.models.KeyedVector 类 ” 

从 技术 上 讲 , 这 些 索 引 或 哈 希 解决 方案 并 不 能 保证 能 找到 所 有 与 语义 搜索 查询 匹配 的 最 佳 结 
果 。 但 是 ， 如 果 我 们 愿意 放弃 一 点 儿 精 确 率 的 话 ， 它 们 几乎 可 以 像 传统 的 TF-IDF 向 量 或 词 袋 向 
量 的 倒 排 索引 一 样 ， 快 速 得 到 一 个 很 好 的 近似 匹配 列表 ” 
































4.8.2 ”改进 

在 下 一 章 中 , 我 们 将 学 习 如 何 微调 主题 向 量 的 概念 , 以 便 与 词 关 联 的 向 量 更 加 精确 和 有 用 。 
为 做 到 这 一 点 ,我 们 首先 开始 学 习 神 经 网 络 。 这 将 提高 流水 线 从 短文 本 其 至 单个 词 中 提取 意义 
的 能 力 。 
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图 ”可 以 使 用 SVD 进行 语义 分 析 ， 将 TF-IDF 和 词 袋 向 量 分 解 并 转换 为 主题 向 量 。 

e 当 需 要 计算 可 解释 的 主题 向 量 时 ， 请 使 用 LDiA。 

E 无 论 以 何 种 方式 创建 主题 向 量 ， 都 可 以 使 用 它们 进行 语义 搜索 ， 即 根据 文档 的 含义 来 查 
找 文档 。 

E 主题 向 量 可 以 用 来 预测 一 个 社交 网 络 帖 子 是 否 是 垃圾 的 ， 或 者 是 否 可 能 被 喜欢 。 

m 现在 我 们 知道 了 如 何 绕 过 “ 维 数 灾难 ”， 在 语义 向 量 空间 中 找到 近似 最 近邻 。 






























































QD gensim 中 用 于 数 百 维 词 向 量 的 方法 也 适用 于 任何 语义 向 量 或 主题 向 量 。 人 参考 gensim 的 “KeyedVectors” 
文档 。 

D 如 果 读 者 想 了 解 更 快 地 寻找 高 维 向 量 最 近邻 的 方法 ， 可 以 查看 附录 下 ， 或 者 使 用 Spotify annoy 包 对 主 
题 向 量 进行 索引 。 


















































第 二 部 分 
深度 学 习 ( 神经 网 络 ) 





etsy 一 部 分 汇总 了 自然 语言 处 理工 具 ， 并 深入 了 解 了 基于 统计 型 向 量 空间 模型 的 机 
器 学 习 算法 。 我 们 会 发 现 ,即使 只 看 词 之 间 的 关系 统计 信息 也 能 发 现 许多 含义 。 
在 第 一 部 分 中 我 们 还 学 习 了 一 些 算法 , 例如 LSA, 通过 将 词汇 聚 到 主题 中 来 理解 词 之 间 的 


关系 。 




















但 是 第 一 部 分 只 考虑 了 词 之 间 的 线性 关系 , 并 且 , 通常 需要 人 工 判别 来 设计 特征 提取 








器 并 选择 模型 参数 。 而 第 二 间 











分 的 神经 网 络 则 可 以 完成 大 部 分 烦琐 的 特征 提取 工作 。 并 且 ， 








第 二 部 分 介绍 的 模型 将 比 第 一 部 分 中 通过 手动 调整 特征 提取 器 构建 出 来 的 模型 更 精确 。 





使 用 多 层 神经 网 络 进行 机 器 学 习 被 称 为 深度 学 习 。 这 种 新 的 NLP 方法 或 者 对 人 类 有 思 

















维 建 模 的 方法 经 常 被 哲学 家 和 神经 科学 家 称 为 “连接 主义 ””。 通 过 可 用 性 更 高 的 计算 资 


























源 和 丰富 的 开源 文化 更 深入 地 了 解 深 度 学 习 , 将 帮助 大 家 更 深入 地 理解 自然 语言 。 在 第 二 























部 分 , 我 们 将 开启 深度 学 习 的 “ 黑 盒 ”， 学 习 如 何以 更 深层 次 的 非 线 性 方法 进行 文本 建 模 。 





接 下 来 , 我 们 首先 介绍 神 


在 NLP 领域 中 的 应 用 。 同 时 














经 网 络 的 入 门 知识 , 然后 研究 一 些 不 同类 型 的 神经 网 络 及 其 











， 我 们 也 会 研究 词 之 间 的 模式 以 及 词 中 各 个 字符 之 间 的 模式 。 





最 后 ， 我 们 将 向 大 家 展示 如 何 使 用 机 器 学 习 来 实际 生成 新 文本 。 








D 条 件 概 率 (conditional probability ) 是 统计 词 之 间 关 系 的 一 个 术语 ( 给 定 一 个 词 前 后 出 现 的 词 , 计算 该 词 
出 现 的 概率 )。 互 相关 ( cross correlation ) 是 男 一 个 统计 术语 ( 词 同 时 出 现 的 似 然 率 )。 词 -文档 矩阵 的 奇 
异 值 和 奇异 向 量 可 用 于 将 词汇 聚 为 主题 ， 对 词 频 进行 线性 组 合 。 

© 参见 标题 为 “Stanford Encyclopedia of Philosophy, Connectionism” 的 网 页 。 
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本 章 主 要 内 容 

图 神经 网 络 的 历史 
图 推 合 感知 机 

图 反 向 传播 算法 
图 初 识 神经 网 络 
E 用 Keras 实现 一 个 基本 的 神经 网 络 


近年 来 $ 
分 类 和 识别 的 能 力 进行 报道 , 最 近 几 年 来 有 关 特 定神 
现 。 大 大 小 小 的 公司 都 在 使 用 神 


























围绕 神经 网 络 前 景 的 新 闻 频 频 出 现 , 起 初 它们 主要 针对 神经 网 络 对 于 输入 数据 进行 

















经 网 络 结构 生成 原创 性 内 容 的 报道 也 不 断 出 








经 网 络 ， 并 将 其 应 用 于 各 种 领域 ， 从 图 像 描述 生成 、 自 动 驾驶 车 


载 导航 ， 到 卫星 图 像 中 的 太阳 能 电池 板 检测 ， 以 及 监控 视频 中 的 人 脸 识别 。 幸 运 的 是 ,神经 网 络 


也 被 应 用 于 NLP 领域 。 








有 然 深度 神经 网 络 引 发 了 大 量 的 关注 ， 但 机 器 人 统治 世界 可 能 比 所 有 标 





题 党 所 说 的 还 要 遥远 。 然 而 ， 神 经 网 络 确实 非常 强大 ， 大 家 可 以 轻易 地 使 用 它 来 完成 NLP 聊天 
机 器 人 流水 线 里 的 输入 文本 分 类 、 文 档 摘要 甚至 小 说 作品 生成 任务 。 
本 章 旨 在 作为 神经 网 络 初 学 者 的 入门 知识 。 在 本 章 中， 我 们 不 局 限于 NLP 领域 的 内 容 ， 而 









































是 对 神经 网 络 底层 做 一 个 基本 的 了 解 ， 为 接 下 来 的 章节 做 准备 。 如 果 大 家 已 经 熟悉 神经 网 络 的 基 





本 知识 , 则 可 以 跳 到 下 一 章 , 在 那里 我 们 将 深入 了 解 各 种 用 于 文本 处 理 的 神经 网 络 。 虽 然 反 向 传 


播 (backpropagation ) 算法 的 数学 基础 知识 





帮助 我 们 理解 语言 及 其 背后 隐藏 的 模式 。 
提示 Manning 出 版 社 还 出 版 了 另外 两 本 关于 深度 学 习 的 重要 著作 : 

E Deep Learning with Python’, Francois Chollet， 由 Keras 作者 撰写 的 关于 深度 学 习 的 深入 理解 

的 书 ; 

E Grokking Deep Learning, Andrew Trask， 关 于 各 利 
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出 了 本 书 的 范围 ， 但 熟练 掌握 其 基本 的 工作 原理 将 





深度 学 习 模型 和 实践 的 概述 性 的 书 。 
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5.1 神经 网 络 的 组 成 


随 着 近 十 年 来 计算 能 力 和 存储 能 力 的 爆炸 式 增长 , 一 项 旧 技 术 又 迎 来 了 新 的 发 展 。 在 20 世纪 50 
年 代 ， 弗 兰 克 “， 罗 森 布 莱 特 (Frank Rosenblatt) 首次 提出 了 感知 机 算法 "“， 用 于 数据 中 的 模式 识别 。 
感知 机 的 基本 思路 是 简单 地 模仿 活性 神经 元 细胞 的 运行 原理 。 当 电信 号 通过 树 突 ( dendrite ) 进入 
细胞 核 (nucleus ) 时 ( 如 图 5-1 所 示 )， 会 逐渐 积聚 电荷 。 达 到 一 定 电位 后 ， 细 胞 就 会 被 激活 ， 
然后 通过 轴 突 (axon) 发 出 电信 号 。 然 而， 树 突 之 间 具 有 一 定 的 差异 性 。 由 于 细胞 对 通过 某 些 特 














定 树 突 的 信号 更 敏感 ， 因 此 在 这 些 通路 中 激活 轴 突 所 需要 的 信号 更 少 。 


树 突 





细胞 核 





图 5-1 ”神经 元 细胞 














控制 神经 元 运行 的 生物 学 知识 毫 无 疑问 超出 了 本 书 的 范围 , 但 是 这 里 面 有 一 个 值得 注意 的 关 
键 概念 , 那 就 是 决定 细胞 何 时 激活 时 细胞 如 何 对 输入 信号 进行 加 权 。 神 经 元 会 在 其 生命 周期 内 的 
决策 过 程 中 动态 调整 这 些 权重 。 接 下 来 我 们 将 会 模拟 这 个 过 程 。 





5.1.1 感知 机 


罗 森 布 莱 特 最 初 的 项 目 是 教会 机 器 识别 图 像 。 最 初 的 感知 机 是 光 接 收 需 和 电位 器 的 集合 体 ， 
而 不 是 现代 意义 上 的 计算 机 。 抛 开具 体 的 实现 不 谈 ， 罗 和 森 布 莱 特 的 想法 是 取 一 幅 图 像 的 特征 ,并 
为 每 项 特征 赋予 相应 的 权重 ， 用 于 度量 其 重要 性 。 输 入 图 像 的 每 项 特征 都 是 图 像 的 一 小 部 分 。 

通过 将 图 像 暴 露 给 光 接 收 需 栅 格 ， 每 个 兴 接 收 需 都 会 接收 图 像 的 一 小 部 分 。 特 定 的 光 接收 需 
所 能 接收 的 图 像 亮 度 将 决定 它 发 送 给 相关 “ 树 突 ” 的 信号 强度 。 

每 个 树 突 都 有 一 个 电位 器 形 式 的 权 值 。 当 输入 信和 号 足够 强 时 , 它 就 会 把 信号 传递 给 “原子 核 ” 
的 主体 “细胞 ”。 一旦 所 有 电位 带 发 出 的 信号 达到 一 定 程度 的 国 值 ， 感 知 机 会 激活 轴 突 ， 表 示 当 
前 展示 的 图 像 是 正 向 匹配 。 如 果 对 于 给 定 的 图 像 没 有 激活 ， 那 就 是 一 个 负 向 匹配 。 类 似 于 识别 一 
图 像 是 不 是 热狗 或 者 是 不 是 高 尾 花 。 
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@ Frank Rosenblatt ( 1957 ) “The perceptron-a perceiving and recognizing automaton”, Report 85-460-1， 康 奈 














5.1 


5.1.2 ”数字 感知 机 
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到 目前 为 止 , 大 家 可 能 已 经 有 很 多 关于 生物 学 、 
把 神经 元 里 最 重要 的 概念 抽 离 出 来 。 








电流 和 光 接 收 需 方面 的 疑问 。 我 们 暂停 一 下 ， 





从 本 质 上 说 ， 这 个 过 程 就 是 从 数据 集中 选取 一 个 样本 〈example )， 并 将 其 展示 给 算法 ， 然 后 让 











算法 判断 “是 ”或 “不 是 ,这 就 是 目前 我 们 所 做 的 事 | 








情 。 我 们 所 需 完成 的 第 一 步 是 确定 样本 的 特征 。 





选择 适合 的 特征 是 机 器 学 习 中 一 个 极 具 挑 战 性 的 部 分 。 在 “一 般 性 ”的 机 需 学 习 问 题 中 ， 如 预测 房 





价 ， 
花 数据 集 "来 预测 某 种 花 的 种 类 , 那样 的 话 , 特征 就 变 
在 罗 森 布 莱 特 的 实验 中 ， 








寺 征 可 能 是 房屋 面积 (平方 英尺 )、 最 终 售 价 和 所 在 地 区 的 邮政 编码 。 或 者 ， 也 许 大 家 想 用 将 尾 


ICIS IE. TIREE, AR BEES Ar DEE 


寺 征 是 每 个 像素 ( 图 像 的 子 区 域 ) 的 强度 值 ， 每 个 照片 接收 器 接 收 一 个 


像素 。 然 后 为 每 个 特征 分 配 权 重 。 这 里 不 用 担心 如 何 得 到 这 些 权 重 ， 只 要 把 它们 理解 为 能 够 输入 神经 














元 所 需 的 信号 强度 值 的 百分比 即 可 。 如 果 大 家 熟悉 线 合 
提示 一 般 而 言 ， 


X= [x1, x2, SX, 


回归 ， 可 能 已 经 知道 这 些 权重 是 如 何 得 到 的 。 


把 单个 特征 表示 为 x， 其 中 i 是 整数 。 所 有 特征 的 集合 表示 为 羡 ， 表示 一 个 向 量 : 


b> Xn] 


类 似 地 ， 每 个 特征 的 权重 表示 为 w;， 其 中 i 对 应 于 与 该 权重 关联 的 特征 x 的 下 标 ， 所 有 权重 可 统一 
RRA SEW: 








w= [wi, w, Pii Wi, Stis wl 
有 了 这 些 特征 ， 只 需 将 每 个 特征 (x; ) 乘 以 对 应 的 权重 (w )， 然 后 将 这 些 乘积 求 和 : 
Ca wi) + Qe Wo) + + i wi) to 




















这 里 有 一 个 缺少 的 部 分 是 是 否 激活 神经 元 的 国 值 。 EIA AEE EL, 感知 机 就 输出 


1， 否 则 输出 0。 
我 们 可 以 使 用 一 个 简单 的 阶 路 函数 〈 在 图 5-2 中 标记 为 “激活 函数 ”) RAN SEL. 





0 或 1 














图 5-2 基本 的 感知 机 








LKB UL Scikit-Learn 文档 。 
率 回 归 函 数 的 斜率 。 




















D 营 尾 花 数据 集 经 常用 于 向 新 接触 的 学 生 介 绍 机 器 学 习 。 
D 单个 神经 元 的 输入 权 值 在 数学 上 等 价 于 多 元 线性 回归 或 对 
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5.1.3 ”认识 偏 置 


图 5-2 的 例子 中 提 到 了 偏 置 。 这 到 底 是 什么 ”实际 上 , 偏 置 是 神经 元 中 常用 的 输入 项 。 和 其 
他 输入 元 素 一 样 , 神 经 元 会 给 偏 置 一 个 权重 , 该 权重 与 其 他 权重 用 同样 的 方式 来 训练 。 在 关于 神 
经 网 络 的 各 种 文献 中 ， 偏 置 有 两 种 表示 形式 。 一 种 表示 形式 是 将 其 表示 为 输入 向 量 , 例 如 对 于 
维 向 量 的 输入 ， 在 向 量 的 开头 或 结尾 处 增加 一 个 元 素 ， 构 成 一 个 n + 1 维 的 向 量 。1 的 位 置 与 网 
络 无 关 ， 只 要 在 所 有 样本 中 保持 一 致 即 可 。 男 一 种 表示 形式 是 ， 首 先 假定 存在 一 个 偏 置 项 , 将 其 
独立 于 输入 之 外 ， 其 对 应 一 个 独立 的 权重 ,将 该 权重 乘 以 1， 然后 与 样本 输入 值 及 其 相关 权重 的 
点 积 进行 加 和 。 这 两 者 实际 上 是 一 样 的 ， 只 不 过 分 别 是 两 种 常见 的 表示 形式 而 已 。 

设置 偏 置 权重 的 原因 是 神经 元 需要 对 全 0 的 输入 具有 弹性 。 网 络 需 要 学 习 在 输入 全 为 0 的 情 
况 下 输出 仍然 为 0, 但 它 可 能 做 不 到 这 一 点 。 如 果 没 有 偏 置 项 ， 神 经 元 对 初始 或 学 习 的 任意 权重 
都 会 输出 0 x 权重 =0。 而 有 了 偏 置 项 之 后 ,就 不 会 有 这 个 问题 了 。 如 果 神 经 元 需要 学 习 输 出 0， 
在 这 种 情况 下 ， 神 经 元 可 以 学 会 减 小 与 偏 置 相关 的 权重 ， 使 点 积 保持 在 阔 值 以 下 即 可 。 

图 5-3 用 可 视 化 方法 对 生物 的 大 脑 神经 元 的 信号 与 深度 学 习 人 工 神经 元 的 信号 进行 了 类 比 ， 
如 果 想 要 做 更 深入 的 了 解 , 可 以 思考 一 下 你 是 如 何 使 用 生物 神经 元 来 阅读 本 书 并 学 习 有 关 自 然 语 
言 处 理 的 深度 学 习 知识 的 。 


输入 

































































Xo 








图 5-3 ”感知 机 与 生物 神经 元 











用 数学 术语 来 说 ， 感 知 机 的 输出 表示 为 f(x)， 如 下 : 





= 1, xw; > BE 
f(x)= 3 


0， 其 他 
公式 5-1 BBR 





























D 自然 语言 理解 ( NLU ) 是 学 术 界 经 常 使 用 的 一 个 术语 ， 是 机 器 表现 出 能 够 理解 自然 语言 文本 的 一 种 自然 
语言 处 理 过 程 。Word2vec 词 怠 人 是 自然 语言 理解 任务 的 一 个 例子 。 问 答 系统 和 阅读 理解 任务 也 属于 自 
然 语 言 理解 范畴 。 神 经 网 络 经 常用 于 自然 语言 理解 任务 中 。 
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提示 WAM E(X) 与 权重 向 量 (W) 两 两 相 乘 后 的 加 和 就 是 这 两 个 向 量 的 点 积 。 这 是 线性 代数 

在 神经 网 络 中 最 基础 的 应 用 ， 对 神经 网 络 的 发 展 影响 巨大 。 另 外 ， 通 过 现代 计算 机 GPU 对 线性 代 

数 操作 的 性 能 优化 来 完成 感知 机 的 矩阵 乘法 运算 ， 使 得 实现 的 神经 网 络 变 得 极为 高 效 。 

此 时 的 感知 机 并 未 学 到 任何 东西 , 不 过 大 家 已 经 获得 了 非常 重要 的 结果 , 我 们 已 经 向 模型 输 
入 数据 并 且 得 到 输出 。 当 然 这 个 输出 可 能 是 错误 的 ， 因 为 还 没有 告诉 感知 机 如 何 获得 权重 ， 而 这 
正 是 最 有 趣 的 地 方 所 在 。 

提示 “所 有 神经 网 络 的 基本 单位 都 是 神经 元 ， 基 本 感知 机 是 广义 神经 元 的 一 个 特例 ， 从 现在 开始 ， 

我 们 将 感知 机 称 为 一 个 神经 元 。 


























1. Python 版 神经 元 
在 Python 中 ,计算 神 经 元 的 输出 是 很 简单 的 。 大 家 可 以 用 numpy 的 dot 函数 将 两 个 向 量 相 乘 : 
>>> import numpy as np 


>>> example input = [1, .2, .1, .05, .2] 
>>> example weights = [.2, .12, .4, .6, .90] 


>>> input_vector = np.array(example input) 
>>> weights = np.array(example_ weights) 


>>> bias_weight = .2 


>>> activation_level = np.dot(input_vector, weights) +\ 


bi Loner T $ r: ETE z 3 
(bias Weg jE bias weight * 1 只 是 为 了 强调 bias_weight 和 其 他 





j i 1 1 
5 ie BE, ESRAR, 区 别 只 是 bias_weight 
的 输入 特征 值 总 是 1 











接 下 来 ， 假 设 我 们 选择 一 个 简单 的 阀 值 激活 函数 ， 并 选择 0.5 作为 国 值 ， 结 果 如 下 : 


>>> threshold = 0.5 
>>> if activation_level >= threshold: 
perceptron_output = 1 
. else: 
perceptron_output = 0 
>>> perceptron_output) 
1 


对 于 给 定 的 输入 样本 example input 和 权重 ， 这 个 感知 机 将 会 输出 1。 如 果 有 许多 
example input 向 量 ， 输 出 将 会 是 一 个 标签 集合 ， 大 家 可 以 检查 每 次 感知 机 的 预测 是 否 正 确 。 


2. 课堂 时 间 


大 家 已 经 构建 了 一 个 基于 数据 进行 预测 的 方法 ， 它 为 机 器 学 习 创 造 了 条 件 。 到 目前 为 止 , 权 
重 都 作为 任意 值 而 被 我 们 忽略 了 。 实 际 上 ,它们 是 整个 架构 的 关键 ， 现 在 我 们 需要 一 种 算法 ， 基 
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于 给 定 样 本 的 预测 结果 来 调整 权重 值 的 大 小 。 

感知 机 将 权重 的 调整 看 成 是 给 定 输入 下 预测 系统 正确 性 的 一 个 函数 ， 从 而 学 习 这 些 权 重 。 但 
是 这 一 切 从 何 开始 呢 ? 未 经 训练 的 神经 元 的 权重 一 开始 是 随机 的 ! 通常 是 从 正 态 分 布 中 选取 趋 近 
于 零 的 随机 值 。 在 前 面 的 例子 中 , 大 家 可 以 看 到 从 零 开 始 的 权重 (包括 偏 置 权重 ) 为 何 会 导致 输 
出 全 部 为 零 。 但 是 通过 设置 微小 的 变化 , 无 须 提供 给 神经 元 太 多 的 能 力 , 神经 元 便 能 以 此 为 依据 
判断 结果 何 时 为 对 何 时 为 错 。 

然后 就 可 以 开始 学 习 过 程 了 。 通过 向 系统 输入 许多 不 同 的 样本 , 并 根据 神经 元 的 输出 是 否 是 
我 们 想 要 的 结果 来 对 权重 进行 微小 的 调整 。 当 有 足够 的 样本 ( 且 在 正确 的 条 件 下 )， 误 差 应 该 逐 
渐 趋 于 零 ， 系 统 就 经 过 了 学 习 。 

其 中 最 关键 的 一 个 诀窍 是 , 每 个 权重 都 是 根据 它 对 结果 误差 的 贡献 程度 来 进行 调整 。 权 重 越 
大 《对 结果 影响 越 大 )， 那 么 该 权重 对 给 定 输入 的 感知 机 输出 的 正确 性 /错误 性 就 负 有 越 大 的 责任 。 

假设 之 前 的 输入 example_input 对 应 的 结果 是 0: 


>>> expected output = 0 
>>> new_weights = [] 


















































>>> for i, x in enumerate (example_input): 
new_weights.append(weights[i] + (expected_output -\ 


ee a E 在 上 述 的 第 一 次 计算 中 ， 








>>> weights = np.array (new weights) new weight=0.2+(0-1)x1=-0.8 





[0.2, 0.12, 0.4, 0.6, 0.9] 
>>> weights P = 
[-0.8 -0.08 0.3 0.55 0.7 新 的 权重 


这 个 处 理 方法 将 同一 份 训 练 集 反复 输入 网 络 中 , 在 适当 的 情况 下 ,即使 是 对 于 之 前 没 见 过 的 
数据 ， 感 知 机 也 能 做 出 正确 的 预测 。 


3. 有 趣 的 逻辑 学 习 问 题 


上 面 使 用 了 一 些 随 机 数字 做 例子 。 我们 把 这 个 方法 应 用 到 一 个 具体 问题 上 , 来 看 看 如 何 通 过 
仅 向 计算 机 展示 一 些 标记 样本 来 教 它 学 会 一 个 概念 。 

接 下 来 ,我 们 将 让 计算 机 理解 逻辑 或 ( OR )。 如 果 一 个 表达 式 的 一 边 或 另 一 边 为 真 (或 两 边 
都 为 真 )， 则 逻辑 或 语句 的 结果 为 真 。 这 个 逮 辑 非常 简单 。 对 于 以 下 这 个 问题 ， 我 们 可 以 手动 构 
造 所 有 可 能 的 样本 (在 现实 中 很 少 出 现 这 种 情况 )， 每 个 样本 由 两 个 信号 组 成 ， 其 中 每 个 信号 都 
为 真 (1 ) 或 假 (0 )， 如 代码 清单 5-1 所 示 。 


>>> example weights ant 
日 仪 里 











代码 清单 5-1 ”逻辑 或 问题 





>>> sample _ data = [[0, 0], # False, False 

0, 1], # False, True 
0] # True, False 
1]] # True, True 
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>>> expected_results = [0, # (False OR False) gives False 
1, # (False OR True ) gives True 
1, # (True OR False) gives True 
1] # (True OR True ) gives True 


>>> activation_threshold = 0.5 
我 们 需要 一 些 工 具 ，numpy 可 以 用 来 做 向 量 (数组 ) WE, random 用 来 初始 化 权重 : 


>>> from random import random 
>>> import numpy as np 


>>> weights = np.random.random(2)/1000 # Small random float 0 < w < .001 
>>> weights 
[5.62332144e-04 7.69468028e-05] 


这 里 还 需要 一 个 偏 置 : 


>>> bias weight = np.random.random() / 1000 
>>> bias_weight 
0.0009984699077277136 


然后 将 其 传递 到 流水 线 中 ， 计 算得 到 4 个 样本 的 预测 结果 ， 如 代码 清单 5-2 所 示 。 





代码 清单 5-2 感知 机 随机 预测 





>>> for idx, sample in enumerate (sample data): 
input_vector = np.array(sample) 
activation_level = np.dot(input_vector, weights) +\ 
(bias_weight * 1) 
if activation_level > activation threshold: 
perceptron_output = 1 
else: 
perceptron_output = 0 
print ('Predicted {}'.format (perceptron_output) ) 
print ('Expected: {}'.format (expected_results[idx]) ) 
print () 
Predicted 0 
Expected: 0 


Predicted 0 
Expected: 1 


Predicted 0 
Expected: 1 








Predicted 0 





Expected: 1 


随机 的 权重 值 对 这 个 神经 元 没有 多 大 帮助 , 我 们 得 到 1 个 正确 、3 个 错误 的 预测 结果 。 接 下 来 我 
们 让 网 络 继续 学 习 , 并 在 每 次 迭代 中 不 只 是 打印 1 或 0, 而 是 同时 更 新 权重 值 , 如 代码 清单 5-3 所 示 。 
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代码 清单 5-3 ”感知 机 学 习 


>>> for iteration_num in range(5): 
correct_answers = 0 
for idx, sample in enumerate (sample data): 
input_vector = np.array(sample) 
weights = np.array(weights) 
activation_level = np.dot(input_vector, weights) +\ 
(bias_weight * 1) 
if activation_level > activation threshold: 
perceptron_output = 1 
else: 
perceptron_output = 0 
if perceptron_output == expected_results [idx]: 
correct_answers += 1 
new_weights = [] 
for i, x in enumerate(sample): I 
new_weights.append(weights[i] + (expected_results[idx] -\ 
perceptron output) * x) 
bias weight = bias weight + ((expected_results[idx] -\ 
perceptron output) * 1) 
weights = np.array (new weights) 
print('{} correct answers out of 4, for iteration {}'\ 
z .format (correct_answers, iteration_num) ) 
correct answers out of 4, for iteration 0 





correct answers out of for iteration 1 偏 置 权重 也 会 随 着 输 
correct answers out of for iteration 2 入 一 起 更 新 








correct answers out of 


Dow WN we 


4, 
4, 
4, for iteration 3 
4, for iteration 4 
这 就 是 使 用 魔法 的 地 方 。 当 然 还 有 一 些 更 高 效 的 方法 来 实现 ， 不 过 
我 们 还 是 通过 循环 来 强调 每 个 权重 是 由 其 输入 〈xi ) 更 新 的 。 如 果 
输入 数据 很 小 或 为 零 ， 则 无 论 误差 大 小 ， 该 输入 对 该 权重 的 影响 都 
将 会 很 小 。 相 反 ， 如 果 输 入 数据 很 大 ， 则 影响 会 很 大 
哈哈 ! 这 个 感知 机 真是 个 好 学 生 。 通 过 内 部 循环 更 新 权重 ， 感 知 机 从 数据 集中 学 习 了 经 验 。 
在 第 一 次 迭代 后 ， 它 比 随 机 猜测 ( 正确 率 为 1/4 ) 多 得 到 了 两 个 正确 结果 ( 正确 率 为 3/4 )。 
在 第 二 次 迭代 中 ， 它 过 度 修正 了 权重 (更改 了 太 多 )， 然 后 通过 调整 权重 来 回溯 结果 。 当 第 
四 次 迭代 完成 后 , 它 已 经 完美 地 学 习 了 这 些 关系 。 随 后 的 迭代 将 不 再 更 新 网 络 ， 因 为 每 个 样本 的 
误差 为 0， 所 以 不 会 再 对 权重 做 调整 
这 就 是 所 谓 的 收 仇 。 当 一 个 模型 的 误差 函数 达到 了 最 小 值 ， 或 者 稳定 在 一 个 值 上 ， 该 模型 就 
被 称 为 收敛 。 有 时 候 可 能 没有 这 么 幸运 。 有 时 神经 网 络 在 寻找 最 优 权 值 时 不 断 波动 以 满足 一 批 数 
据 的 相互 关系 ,但 无 法 收敛 。 在 5.8 节 中 , 大 家 将 看 到 目标 函数 (objective function ) 或 损失 函数 
(loss function ) 如 何 影响 神经 网 络 对 最 优 权重 的 选择 。 


4. 下 一 步 


基本 感知 机 有 一 个 固有 缺陷 ， 那 就 是 ， 如 果 数 据 不 是 线性 可 分 的 ， 或 者 数据 之 间 的 关系 不 能 用 线 
FE 关 系 来 描述 ,模型 将 无 法 收 伍 ,也 将 不 具有 任何 有 效 预 测 的 能 力 ， 因 为 它 无 法 准确 地 预测 目标 变量 。 


correct answers out of 
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早期 的 实验 在 仅 基于 样本 图 像 及 其 类 别 来 进行 图 像 分 类 的 学 习 上 取得 了 成 功 。 这 个 概念 在 早 
期 很 激动 人 心 ， 但 很 快 受到 了 来 自明 斯 基 (Minsky ) 和 佩 珀 特 (Papert) 的 考验 "， 他 们 指出 感知 
机 在 分 类 方面 有 严重 的 局 限 性 , 他们 证 明了 如 果 数 据 样本 不 能 线性 可 分 为 独立 的 组 , 那么 感知 机 
将 无 法 学 习 如 何 对 输入 数据 进行 分 类 。 

线性 可 分 的 数据 点 ( 如 图 5-4 所 示 ) 对 感知 机 来 说 是 没有 问题 的 ， 而 存在 类 别 交 又 的 数据 将 
导致 单 神经 元 感知 机 原 地 踏步 ， 学 习 预 测 的 结果 将 不 比 随机 猜测 好 ， 表 现 得 就 像 是 在 随机 抛 硬币 。 
在 图 5-5 中 我 们 就 无 法 在 两 个 类 ( 分 别 用 点 和 又 表示 ) 之 间 画 一 条 分 割 线 。 
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图 5-4 线性 可 分 的 数据 














图 5-5” 非 线性 可 分 的 数据 








® Minsky 和 Papert 的 感知 机 ，1969。 
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感知 机 会 用 线性 方程 来 描述 数据 集 的 特征 与 数据 集中 的 目标 变量 之 间 的 关系 , 这 就 是 线性 回 








归 ， 但 是 感知 机 无 法 描述 非 线性 方程 或 者 非 线 性 关系 。 
局 部 极 小 值 与 全 局 极 小 值 








当 一 个 感知 机 收敛 时 ， 可 以 说 它 找到 了 一 个 描述 数据 与 目标 变量 之 间 关 系 的 线性 方程 。 然 而 ， 这 并 








不 能 说 明 这 个 描述 性 线性 方程 有 多 好 ， 或 者 说 代价 有 多 “小 ” 









































。 如 果 有 多 个 解决 方案 ， 即 存在 着 多 个 可 能 
的 极 小 代价 ， 它 只 会 确定 一 个 由 权重 初始 值 决定 的 、 特 定 的 极 小 值 。 这 被 称 为 局 部 极 小 值 ， 因 为 它 是 在 





























权重 开始 的 地 方 附 近 找 到 的 最 优 值 ( 最 小 的 代价 )。 它 可 能 不 是 全 局 极 小 值 ， 因 为 全 局 极 小 值 需 要 搜索 所 
























































可 能 的 权重 值 。 在 大 多 数 情况 下 ， 无 法 确定 是 否 找到 了 全 局 极 小 值 。 


很 多 数据 值 之 间 的 关系 不 是 线性 的 , 也 没有 好 的 线性 回归 或 线性 方程 能 够 描述 这 些 关 系 。 许 
多 数据 集 不 能 用 直线 或 平面 来 线性 分 割 。 因 为 世界 上 的 大 多 数 数据 不 能 由 直线 或 平面 来 清楚 地 分 
开 ， 明 斯 基 和 佩 珀 特 发 表 的 “证 明 ” 让 感知 机 被 束之高阁 。 






































但 是 有 关 感 知 机 的 想法 并 不 会 就 此 消亡 。Rumelhardt McClelland 的 合作 成 果 ”( Geoffrey 


Hinton 也 参与 其 中 ) 展示 了 可 以 使 用 多 层 感知 机 的 组 合 来 解决 异 或 (XOR ) 问题 ”， 此 后 感知 机 





再 次 浮 出 水 面 。 之 前 ， 大 家 使 用 单 层 感 知 机 解决 的 或 ( 

















OR ) 问题 属于 比较 简单 的 问题 ， 也 没有 





用 到 多 层 反 向 传播 。Rumelhardt McClelland 的 关键 突破 是 发 现 了 一 种 方法 , 该 方法 可 以 为 每 个 感 




















知 机 适当 地 分 配 误差 。 他 们 使 用 的 是 一 种 叫 反 向 传播 的 传统 思想 , 通过 这 种 跨越 多 个 神经 元 层 的 











反 向 传播 思想 ， 第 一 个 现代 神经 网 络 诞生 了 。 



































基本 感知 机 有 一 个 固有 的 缺陷 ， 即 如 果 数 据 不 是 线性 可 分 的 , 则 模型 不 会 收敛 到 具有 有 效 预 





测 能 力 的 解 。 


注意 代码 清单 5-3 中 的 代码 通过 一 个 单 层 感知 机 解决 了 或 问题 。 代 码 清单 5-1 代码 中 感知 机 学 到 


的 0 和 1 组 成 的 表格 是 二 元 逻辑 或 的 输出 结果 。 蜡 或 问题 








每 类 (0 或 1 ) 样本 将 是 非 线性 可 分 的 。 在 二 维特 征 向 量 
于 图 5-5 )， 所 以 无 法 通过 画 一 条 直线 来 区 分 出 数据 样本 1 











稍微 改变 了 一 下 该 数据 表 ， 以 此 来 教 感知 


机 如 何 模拟 一 个 独占 的 逻辑 或 门 。 如 果 改 变 一 下 最 后 一 个 示例 的 正确 结果 , 将 1( 真 ) 改 为 0( 假 )， 
从 而 将 其 转换 为 逻辑 异 或 , 这 个 问题 就 会 变 得 困难 许多 。 在 不 向 神经 网 络 添加 额外 神经 元 的 情况 下 ， 
空间 中 ， 这 些 类 彼此 呈 对 角 线 分 布 〈 类 似 


(HHR) 和 0 (EER ) 








尽管 神经 网 络 可 以 解决 复杂 的 非 线性 问题 ， 但 是 那 时 计算 成 本 太 高 ， 用 两 个 感知 机 和 一 堆 花 哨 的 
反 向 传播 数学 算法 来 解决 异 或 问题 被 认为 是 对 宝贵 计算 资源 的 极 大 浪费 ， 因 为 这 个 问题 只 需要 用 一 个 
逻辑 门 或 一 行 代码 就 能 解决 。 事 实证 明 ， 它 们 不 适合 被 广泛 使 用 ， 所 以 只 能 再 次 回 到 学 术 界 和 超级 计 
算 机 实验 的 角落 。 由 此 开启 了 第 二 次 “人 工 智能 寒冬 ”， 这 种 情况 从 1990 年 持续 到 2010 年 左右 。 后 


























QD Rumelhart, D. E, Hinton, G. E. 和 Williams, R. J. 1986 年 在 《 自 
by back-propagating errors” ( 参见 第 323, 533 ~ 536 页 )。 
@ 参见 维基 百科 词 条 “The XOR affair”. 
































SK) (Nature) 上 发 表 的 “Learning representations 


@) 详 见 标题 为 “Philosophical Transactions of the Royal Society B: Biological Sciences” 的 网 页 。 
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来 ， 随 着 计算 能 力 、 反 向 传播 算法 和 原始 数据 ( 例如 猜 和 狗 的 标注 图 像 ”) 的 发 展 ， 昂 贵 的 计算 
算法 和 有 限 的 数据 集 都 不 再 是 障碍 。 第 三 次 神经 网 络 时 代 开 始 了 。 
下 面 我 们 来 看 看 他 们 发 现 了 什么 。 


5 第 二 次 人 工 智能 寒冬 的 出 现 


和 大 多 数 伟 大 的 思想 一 样 , 好 的 思想 最 终 都 会 浮 出 水 面 。 人 们 发 现 只 要 对 感知 机 背后 的 基本 
思想 进行 扩展 ,就 可 以 克服 之 前 的 那些 限制 。 将 多 个 感知 机 集合 到 一 起 ,并 将 数据 输入 一 个 (或 
多 个 ) 感知 机 中 ,并且 以 这 些 感知 机 的 输出 作为 输入 ,传递 到 更 多 的 感知 机 ， 最 后 将 输出 与 期 户 
值 进行 比较 ， 这 个 系统 (神经 网 络 ) 便 可 以 学 习 更 复杂 的 模式 ， 克 服 了 类 的 线性 不 可 分 的 挑战 ， 
如 异 或 问题 。 其 中 的 关键 是 : 如 何 更 新 前 面 各 层 中 的 权重 ? 

接 下 来 我 们 暂停 一 下 , 将 这 个 过 程 的 一 个 重要 部 分 形式 化 。 到 目前 为 止 , 我 们 已 经 讨论 了 误 
差 和 感知 机 的 预测 结果 与 真实 结果 的 偏离 程度 。 测 量 这 个 误差 是 由 代价 函数 或 损失 函数 来 完成 
的 。 正 如 我 们 看 到 的 ,代价 函 数量 化 了 对 于 输入 “问题 ”(x ) 网 络 应 该 输出 的 正确 答案 与 实际 输 
出 值 Cy) 之 间 的 差距 。 损 失 函 数 则 表示 网 络 输 出 错误 答案 的 次 数 以 及 错误 总 量 。 公 式 5-2 是 代 
价 函数 的 一 个 例子 ， 表 示 真 实 值 与 模型 预测 值 之 间 的 误差 : 

ert(x) = bb -fœ 
公式 5-2 ”真实 值 与 预测 值 之 间 的 误差 
训练 感知 机 或 者 神经 网 络 的 目标 是 最 小 化 所 有 输入 样本 数据 的 代价 函数 。 
J (x) = min err(x;) 


i=l 









































































































































公式 5-3 ”希望 最 小 化 的 代价 函数 


接 下 来 大 家 会 看 到 还 有 一 些 其 他 种 类 的 代价 函数 ,如 均 方 误差 , 这 些 通常 已 经 在 神经 网 络 框 
架 中 定义 好 了 ， 大 家 无 须 自 己 去 决定 哪些 是 最 好 的 代价 函数 。 需 要 牢记 的 是 , 最 终 目标 是 将 数据 
集 上 的 代价 函数 最 小 化 ， 这 样 此 处 给 出 的 其 他 概念 才 有 意义 。 


6. 反 向 传播 算法 


i (Hinton ) 和 他 的 同事 提出 一 种 用 多 层 感知 机 同时 处 理 一 个 目标 的 方法 。 这 个 方法 可 以 
解决 线性 不 可 分 问题 。 通 过 该 方法 ， 他 们 可 以 像 拟 合 线性 函数 那样 去 拟 合 非 线性 函数 。 

但 是 如 何 更 新 这 些 不 同感 知 机 的 权重 呢 ? 造成 误差 的 原因 是 什么 ”假设 两 个 感知 机 彼此 相 
邻 ， 并 接收 相同 的 和 输入， 无 论 怎样 处 理 输出 〈 连 接 、 求 和 、 相 乘 )， 当 我 们 试图 将 误差 传播 回 到 
初始 权重 的 时 候 ， 它 们 (输出 ) 都 将 是 输入 的 函数 两 边 是 相同 的 )， 所 以 它们 每 一 步 的 更 新 量 
都 是 一 样 的 , 感知 机 不 会 有 不 同 的 结果 。 这 里 的 多 个 感知 机 将 是 元 余 的 。 它 们 的 权重 一 样 ， 神 经 























































































































D 参见 下 载 资源 中 的 Leaming Multiple Layers of Features from Tiny Images.pdf 文件 ， 作 者 为 Alex Krizhevsky o 
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网 络 也 不 会 学 到 更 多 东西 。 

大 家 再 来 想象 一 下 ， 如 果 将 一 个 感知 机 作为 第 二 个 感知 机 的 输入 ,是 不 是 更 令 人 困惑 了 ,这 
到 底 是 在 做 什么 ? 

反 向 传播 可 以 解决 这 个 问题 ,但 首先 需要 稍微 调整 一 下 感知 机 。 记 住 ,权重 是 根据 它们 对 整 
体 误 差 的 贡献 来 更 新 的 。 但 是 如 果 权 重 对 应 的 输出 成 为 另 一 个 感知 机 的 输入 , 那么 从 第 二 个 感知 
机 开始 ， 我 们 对 误差 的 认识 就 变 得 有 些 模糊 了 。 

如 图 5-6 所 示 ， 权 重 wy 通过 下 一 层 的 权重 (wy ) 和 ( wy ) 来 影响 误差 ， 因 此 我 们 需要 一 种 
方法 来 计算 w 对 误差 的 贡献 ， 这 个 方法 就 是 反 向 传播 。 
隐藏 层 / 






























































如 何 更 新 
输入 向 量 ”这 些 权 重 ? 输出 层 / 输出 向 量 





图 5-6 包含 隐藏 权重 的 神经 网 络 

现在 是 时 候 停止 使 用 “感知 机 ”这 个 术语 了 ， 因 为 之 后 大 家 将 改变 每 个 神经 元 权重 的 更 新 方 
式 。 从 这 里 开始 , 我们 提 到 的 神经 元 将 更 通用 也 更 强大 , 它 包 含 了 感知 机 。 在 很 多 文献 中 神经 元 
也 被 称 为 单元 或 节点 ， 在 大 多 数 情况 下 ， 这 些 术 语 是 可 以 互 换 的 。 
































所 有 类 型 的 神经 网 络 都 是 由 一 组 神经 元 和 神经 元 之 间 的 连接 组 成 的 。 我 们 经 常 把 它们 组 织 成 
层级 结构 ,不 过 这 不 是 必需 的 。 如 果 在 神经 网 络 的 结构 中 , 将 一 个 神经 元 的 输出 作为 另 一 个 神经 
元 的 输入 ， 就 意味 着 出 现 了 隐藏 神经 元 或 者 隐藏 层 ， 而 不 再 只 是 单纯 的 输入 层 、 输 出 层 。 

图 5-7 中 展示 的 是 一 个 全 连接 网 络 ， 图 中 没有 展示 出 所 有 的 连接 ， 在 全 连接 网 络 中 ， 每 个 输 
入 元 素 都 与 下 一 层 的 各 个 神经 元 相连 ， 每 个 连接 都 有 相应 的 权重 。 因 此 , 在 一 个 以 四 维 向 量 为 输 
入 、 有 5 个 神经 元 的 全 连接 神经 网 络 中 ， 一 共有 20 个 权重 (5 个 神经 元 各 连接 4 个 权重 )。 

感知 机 的 每 个 输入 都 有 一 个 权重 , 第 二 层 神 经 元 的 权重 不 是 分 配给 原始 输入 的 ,而 是 分 配给 
来 自 第 一 层 的 各 个 输出 。 从 这 里 我 们 可 以 看 到 计算 第 一 层 权 重 对 总 体 误差 的 影响 的 难度 。 第 一 层 
权重 对 误差 的 影响 并 不 是 只 来 自 某 个 单独 权重 ， 而 是 通过 下 一 层 中 每 个 神经 元 的 权重 来 产生 的 。 
虽然 反 向 传播 算法 本 身 的 推导 和 数学 细节 非常 有 趣 , 但 超出 了 本 书 的 范围 , 我 们 对 此 只 做 一 个 简 
单 的 概述 ， 使 大 家 不 至 于 对 神经 网 络 这 个 黑 盒 一 无 所 知 。 

反 向 传播 是 误差 反 向 传播 的 缩写 ， 描 述 了 如 何 根据 输入 、 输 出 和 期 望 值 来 更 新 权重 。 传 播 ， 
或 者 说 前 向 传播 ， 是 指 输入 数据 通过 网 络 “ 向 前 ”流动 ， 并 以 此 计算 出 输入 对 应 的 输出 。 要 进行 
反 向 传播 ， 首 先 需要 将 感知 机 的 激活 函数 更 改 为 稍微 复杂 一 点 儿 的 函数 。 
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输入 向 量 隐藏 层 


输出 层 输出 向 量 





图 5-7 全 连接 神经 网 络 




















到 目前 为 止 , 大 家 一 直 在 使 用 阶 路 函数 作为 人 工 神经 元 的 激活 函数 。 但 是 接 下 来 会 发 现 , 反 
向 传播 需要 一 个 非 线 性 连续 可 微 的 激活 函数 “， 如 公式 5-4 中 常用 的 sigmoid 函数 所 示 , 现在 每 个 
神经 元 都 会 输出 介 于 两 个 值 (如 0 和 1) 之 间 的 值 : 














s(x)=— 


l+e™ 


公式 5-4 sigmoid 函数 


为 什么 激活 函数 需 是 非 线性 的 
因为 需要 让 神经 元 能 够 模拟 特征 向 量 和 目标 变量 之 间 的 非 线性 关系 。 如 果 神 经 元 只 是 将 输入 与 权重 
相 乘 然后 做 加 和 ， 那 么 输出 必然 是 输入 的 线性 函数 ， 这 个 模型 连 最 简单 的 非 线性 关系 都 无 法 表示 。 
之 前 使 用 的 神经 元 冰 值 函数 是 一 个 非 线性 阶 路 函数。 所 以 理论 上 只 要 有 足够 多 的 神经 元 就 可 以 用 来 
训练 非 线性 关系 模型 。 
这 就 是 非 线性 激活 函数 的 优势 ， 它 使 神经 网 络 可 以 建立 非 线性 关系 模型 。 一 个 连续 可 微 的 非 线性 函数 ， 如 
sigmoid， 可 以 将 误差 平滑 地 反 向 传播 到 多 层 神 经 元 上 ， 从 而 加 速 训练 进程 。sigmoid 神经 元 的 学 习 速 度 很 快 。 























































































































还 有 许多 其 他 的 激活 函数 ,如 双 曲 正切 函数 和 修正 线性 单元 函数 ,它们 各 有 优 劣 , 适用 于 不 
同 的 神经 网 络 结构 ， 大 家 将 在 之 后 的 章节 中 学 习 。 

为 什么 要 求 可 微 呢 ?” 如 果 能 够 计算 出 这 个 函数 的 导数 ， 就 能 对 函数 中 的 各 个 变量 求 偏 导数 。 
这 里 的 关键 是 “各 个 变量 "， 这 样 就 能 通过 接收 到 的 输入 来 更 新 权重 ! 














D 连续 可 微 函数 比 可 微 函数 更 平滑 ， 参 见 维基 百科 词 条 “Differentiable function” o 
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首先 用 平方 误差 作为 代价 函数 来 计算 网 络 的 误差 ， 如 公式 5-5 所 示 “: 
use =(y~ f(s) 
公式 5-5 ARE 
然后 利用 微 积 分 链 式 法 则 计算 复合 函数 的 导数 ， 如 公式 5-6 所 示 。 网 络 本 身 只 不 过 是 函数 的 
复合 〈 点 积 之 后 的 非 线性 激活 函数 )。 
(f(g(x) = F(x) = FEN) 
公式 5-6 ” 链 式 法 则 
接 下 来 可 以 用 这 个 公式 计算 每 个 神经 元 上 激活 函数 的 导数 。 通 过 这 个 方法 可 以 计算 出 各 个 权 
重 对 最 终 误 差 的 贡献 ， 从 而 进行 适当 的 调整 。 


如 采 该 层 是 条 出) 慨 ， 借 助 于 可 微 的 激活 函数 ， 权 重 的 更 新 比较 简单 ， 对 于 第 7 个 输出 ,误差 
的 导数 如 下 “: 
































OError 
Aw; =—@ =-ay;(y;-f)))y;A-y;) 
Wy 


公式 5-7 误差 导数 
如 果 要 更 新 隐藏 层 的 权重 ， 则 会 稍微 复杂 一 点 儿 ， 如 公式 5-8 所 示 : 


ôE 
Aw; =-a F -a y; (È wy; l-y;) 


ij leL 




















公式 5-8 前 一 层 的 导数 

在 公式 5-7 H, KA fx) 表示 实际 结果 向 量 ，fx) 表示 该 向 量 第 j 个 位 置 上 的 值 ，y,、y 是 倒 
数 第 二 层 第 i 个 节点 和 输出 第 j 个 节点 的 输出 ， 连 接 这 两 个 节点 的 权重 为 wi RERA KRO 
wj 求 导 的 结果 相当 于 用 a (学 习 率 ) 乘 以 前 一 层 的 输出 再 乘 以 后 一 层 代 价 函 数 的 导数 。 公 式 5-8 
中 6 表示 工 层 第 /个 节点 上 的 误差 项 ， 前 一 层 第 j 个 节点 到 工 层 所 有 的 节点 进行 加 权 求 和 ”。 

重要 的 是 要 明确 何 时 更 新 权重 。 在 计算 每 一 层 中 权重 的 更 新 时 , 需要 依赖 网 络 在 前 癌 传 播 中 
的 当前 状态 。 一 旦 计算 出 误差 , 我 们 就 可 以 得 到 网 络 中 各 个 权重 的 更 新 值 , 但 仍然 需要 回 到 网 络 
的 起 始 节 点 才能 去 做 更 新 。 和 否则 ， 如 果 在 网 络 末端 更 新 权重 ,前面 计算 的 导数 将 不 再 是 对 于 本 输 
和 人 的 正确 的 梯度 。 另 外 , 也 可 以 将 权重 在 每 个 训练 样本 上 的 变化 值 记录 下 来 , 其 间 不 做 任何 更 新 ， 












































D 该 误差 代价 函数 通常 带 一 个 常数 因子 /2， 男 外 ， 这 里 的 y 是 预测 值 ，ftx) 是 真实 值 ， 和 一 般 的 机 器 学 习 
损失 函数 的 表示 不 太一 样 ， 请 注意 区 分 。 一 一 译 者 注 

D 这 里 的 代价 函数 有 常数 因子 12， 激 活 函 数 用 的 sigmoid 函数 y， 其 求 导 结 果 是 (1-7)。 译 者 注 

@ 想象 一 下 有 三 层 ， 前 一 层 包含 节点 i， 中 间 层 包含 节点 7 ,后 一 层 是 工 层 。L 层 上 所 有 节点 1 上 的 误差 项 
6 会 反 传 到 中 间 层 节点 7 上 ， 因 此 这 里 有 个 求 和 项 。 层 的 误差 项 可 以 通过 后 一 层 的 误差 项 反 疝 传播 得 
到 。 关 于 误差 项 的 求法 ， 可 以 参考 相关 书籍 。 一 一 译 者 注 
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等 训练 结束 后 再 一 起 更 新 ， 我 们 将 在 5.1.6 节 中 讨论 这 项 内 容 。 

接 下 来 将 全 部 数据 输入 网 络 中 进行 训练 , 得 到 每 个 输入 对 应 的 误差 ,然后 将 这 些 误差 反 向 传 
播 至 每 个 权重 , 根据 误差 的 总 体 变 化 来 更 新 每 个 权重 。 当 网 络 处 理 完全 部 的 训练 数据 后 ,误差 的 
反 向 传播 也 随 之 完成 ,我 们 将 这 个 过 程 称 为 神经 网 络 的 一 个 训练 周期 (epoch )。 我们 可 以 将 数据 
集 一 遍 又 一 遍地 输入 网 络 来 优化 权重 。 但 是 要 注意 ,网 络 可 能 会 对 训练 集 过 拟 合 ， 导 致 对 训练 集 
外 部 的 新 数据 无 法 做 出 有 效 的 预测 。 

在 公式 5-7 和 公式 5-8 中 ,a 表示 学 习 率 。 它 决定 了 在 一 个 训练 周期 或 一 批 数据 中 权重 中 误差 的 
修正 量 。 通 常 在 一 个 训练 周期 内 a 保持 不 变 , 但 也 有 一 些 复 杂 的 训练 算法 会 对 a 进行 自 适应 调整 ， 
以 加 快 训练 速度 并 确保 收敛 。 如 果 a 过 大 ,很 可 能 会 矫 枉 过 正 , 使 下 一 次 误差 变 得 更 大 ， 导 至 权重 
离 目标 更 远 。 如 果 a 设置 太 小 会 使 模型 收敛 过 慢 ， 更 糟糕 的 是 ， 可 能 会 陷入 误差 曲面 的 局 部 极 小 值 。 












































5.1.4 误差 曲面 


如 前 所 述 ， 训 练 神经 网 络 的 目标 是 通过 寻找 最 佳 参 数 ( 权重 ) 来 最 小 化 代价 函数 。 记 住 , 不 
是 针对 任何 单个 数据 的 误差 ， 而 是 最 小 化 所 有 误差 的 代价 。 
建立 对 这 个 问题 的 可 视 化 展示 ， 可 以 帮助 大 家 理解 在 调整 网 络 权重 时 到 底 在 做 什么 。 

星期， 均 方 误差 是 一 个 很 常用 的 代价 函数 ( 如 公式 5-5 所 示 )。 给 定 一 组 输入 和 一 组 预期 输 
出 ， 大 家 可 以 想象 一 下 ， 如 果 把 误差 当 作 可 能 的 权重 的 函数 ， 以 此 绘制 一 张 图 , 则 图 中 存在 一 个 
最 接近 零 的 点 ， 这 个 点 就 是 大 家 寻找 的 最 小 值 一 一 模型 在 这 个 点 上 误差 最 小 。 

这 个 最 小 值 将 是 针对 给 定 训 练 样本 得 到 最 优 和 输出 的 一 组 权重 集合 。 大 家 会 看 到 它 经 常 被 表示 
成 一 个 三 维 的 碗 状 图 形 ， 其 中 两 维 表示 权重 向 量 , 第 三 维 表示 误差 ( 如 图 5-8 所 示 )。 这 是 个 简 
化 版 的 描述 ， 不 过 其 表示 的 含义 在 高 维 空间 ( 多 于 两 个 权重 ) 上 同样 适用 。 
































给 定 权重 对 的 误差 


























图 5-8 OiR% hm 
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类 似 地 , 大 家 也 可 以 针对 训练 集 上 所 有 输入 的 所 有 可 能 的 权重 的 函数 绘制 出 误差 曲面 。 这 里 
需要 稍微 调整 一 下 误差 函数 ,在 给 定 权 重 集 合 的 情况 下 , 聚合 所 有 输入 前 向 传播 产生 的 误差 。 在 
本 例 中 ,使 用 均 方 误差 作为 z 轴 (如 公式 5-5 所 示 )。 

这 样 可 以 得 到 一 个 具有 最 小 值 的 误差 曲面 , 它 由 权重 集合 决定 , 这 组 权重 描述 了 一 个 最 适合 
整个 训练 集 的 模型 。 





5.1.5 不 同类 型 的 误差 曲面 


这 个 可 视 化 表示 什么 含义 呢 ? 算法 在 每 个 周期 的 训练 中 使 用 梯度 下 降 算 法 来 最 小 化 误差 。 每 
次 在 某 个 方向 上 对 权重 的 调整 都 有 可 能 减 小 下 次 的 误差 。 如 果 是 凸 误差 曲 面 , 那 简直 太 棒 了 。 这 
好 比 站 在 滑雪 坡 上 环顾 四 周 ， 看 看 哪 条 路 是 向 下 的 ， 然 后 就 走 这 条 路 ! 

但 误差 函数 所 在 的 曲面 并 非 总 是 一 个 平滑 的 碗 。 误差 曲面 可 能 有 许多 坑坑洼洼 , 这 就 是 非 凸 
误差 曲面 (如 图 5-9 所 示 )。 而 且 就 像 滑雪 一 样 ， 如 果 这 些 坑 足 够 大 ， 就 有 可 能 会 陷 进去 ， 从 而 
无 法 到 达 坡 底 。 























的 随机 权重 





给 定 权 重 对 的 误差 








权重 1 


图 5-9 非 凸 误差 曲面 


5-9 仍然 用 二 维 输入 来 表示 权重 。 不 过 ,这 和 10 维 、50 维 、1000 维 输 入 在 概念 上 是 一 样 
的 。 在 高 维 空间 中 ， 可 视 化 已 经 不 具有 意义 ， 所 以 我 们 只 能 相信 和 数学。 一旦 开始 使 用 神经 网 络 ， 
误差 曲面 的 可 视 化 就 变 得 不 再 重要 , 大 家 可 以 在 训练 过 程 中 观察 ( 或 绘制 ) 误差 或 其 他 相关 的 指 
标 来 得 到 相同 的 信息 ， 看 它 是 否 逐 渐 趋 于 0， 从 中 看 出 网 络 是 否 在 做 正确 的 优化 。 不 过 这 些 3D 
图 形 对 于 理解 整个 过 程 还 是 有 一 定 帮 助 的 。 

那么 非 凸 误差 空间 呢 ? 那些 坑坑洼洼 难道 不 是 问题 吗 ?” 当然 是 问题 。 在 这 种 情况 下 , 模型 优 
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化 的 结果 取决 于 权重 的 随机 初始 值 , 由 于 无 法 从 局 部 极 小 值 中 走出 来 ， 当 训练 结束 时 ,不 同 的 权 
重 初始 值 可 能 会 导致 模型 收敛 于 完全 不 同 的 结果 。 
在 更 高 维 的 空间 中 ， 网 络 依然 会 伴随 着 局 部 极 小 值 问题 。 








5.1.6 ”多 种 梯度 下 降 算 法 


到 目前 为 止 , 我 们 一 直 是 把 所 有 训练 样本 的 误差 聚合 起 来 然后 再 做 梯度 下 降 , 这 种 训练 方法 
称 为 批量 学 习 ( batch learning )。 一 批 是 训练 数据 的 一 个 子 集 。 但 是 在 批量 学 习 中 误差 曲面 对 于 
整个 批 是 静态 的 ， 如果 从 一 个 随机 的 起 始点 开始 ,得 到 的 很 可 能 是 某 个 局 部 极 小 值 ， 从 而 无 法 看 
到 其 他 的 权重 值 的 更 优 解 。 这 里 有 两 种 方法 来 避 开 这 个 陷阱 。 

第 一 种 方法 是 随机 梯度 下 降 法 。 在 随机 梯度 下 降 中 ， 不 用 去 查看 所 有 的 训练 样本 ， 而 是 在 输入 
每 个 训练 样本 后 就 去 更 新 网 络 权 重 。 在 这 个 过 程 中 ， 每 次 都 会 重新 排列 训练 样本 的 顺序 ， 这样 将 为 
每 个 样本 重新 绘制 误差 曲面 ， 由 于 每 个 相 异 的 输入 都 可 能 有 不 同 的 预期 答案 ， 因 此 大 多 数 样本 的 误 
差 曲面 都 不 一 样 。 对 每 个 样本 来 说 ， 仍 然 使 用 梯度 下 降 法 来 调整 权重 。 不 过 不 用 像 之 前 那样 在 每 个 
训练 周期 结束 后 聚合 所 有 误差 再 做 权重 调整 ， 而 是 针对 每 个 样本 都 会 去 更 新 一 次 权重 。 其 中 的 关键 
点 是 ， 每 一 步 都 在 向 假定 的 极 小 值 前 进 〈 不 是 所 有 路 径 都 通 往 假定 的 极 小 值 )。 

使 用 正确 的 数据 和 超 参 数 , 在 向 这 个 波动 误差 曲面 的 各 个 最 小 值 前 进 时 ,可 以 更 容易 地 得 到 
全 局 极 小 值 。 如 果 模 型 没有 进行 适当 的 调 优 ， 或 者 训练 数据 不 一 致 ， 将 导致 原 地 踏步 ， 模 型 无 法 
收敛 ,也 学 不 会 任何 东西 。 不 过 在 实际 应 用 中 ,随机 梯度 下 降 法 在 大 多 数 情况 下 都 能 有 效 地 避免 
局 部 极 小 值 。 这 种 方法 的 缺点 是 计算 速度 比较 慢 。 计算 前 向 传播 和 反 向 传播 , 然后 针对 每 个 样本 
进行 权重 更 新 ， 这 在 本 来 已 经 很 慢 的 计算 过 程 的 基础 上 又 增加 了 很 多 时 间 开 销 。 

第 二 种 方法 ,也 是 更 常见 的 方法 ， 是 小 批量 学 习 。 在 小 批量 学 习 中 , 会 传人 训练 集 的 一 个 小 
的 子 集 , 并 按照 批量 学 习 中 的 误差 聚合 方法 对 这 个 子 集 对 应 的 误差 进行 聚合 。 然 后 对 每 个 子 集 按 
批 将 其 误差 进行 反 向 传播 并 更 新 权重 。 下 一 批 会 重复 这 个 过 程 ， 直 到 训练 集 处 理 完成 为 止 , 这 就 
重新 构成 了 一 个 训练 周期 。 这 是 一 种 折 中 的 办 法 ， 它 同时 具有 批量 学 习 (快速 ) 和 随机 梯度 下 降 
(具有 弹性 ) 的 优点 。 

尽管 反 向 传播 算法 如 何 工 作 的 细节 很 吸引 人 ， 而 且 非 常 重要 ， 不 过 正如 前 文 所 述 ， 这 超出 
了 本 书 的 范围 。 大 家 可 以 通过 误差 曲面 对 其 有 一 个 形象 的 认识 。 神 经 网 络 沿 着 曲面 的 斜坡 往 下 
走 ， 走 得 越 快 越 好 ， 直 到 抵达 到 硫 的 底部 。 在 一 个 给 定 的 点 上 ， 环 顾 四 周 ， 找 一 条 最 陡 的 路 下 
坡 〈 如 果 恶 高 的 话 这 可 能 不 是 个 好 景象 )。 更 进一步 批量 学 习 、 小 批量 学 习 或 随机 梯度 下 降 
法 )， 再 举目 四 顾 ， 找 到 最 陡 的 路 径 ， 然 后 往 那个 方向 走 ， 很 快 大 家 就 能 抵达 山谷 底部 滑雪 小 
屋 的 火炉 旁边 了 。 

































































































































































5.1.7 Keras: FA Python 实现 神经 网 络 
用 原生 Python 来 编写 神经 网 络 是 一 个 非常 有 趣 的 尝试 ， 而 且 可 以 帮助 大 家 理解 神经 网 络 中 
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的 各 种 概念 ， 但 是 Python 在 计算 速度 上 有 了 明显 缺陷 ， 即 使 对 于 中 等 规模 的 网 络 ， 计 算 量 也 会 变 
得 非常 坏 手 。 不 过 有 许多 Python 库 可 以 用 来 提高 运算 速度 , 包括 PyTorch, Theano, TensorFlow 和 
Lasagne 等 。 本 书 中 的 例子 使 用 Keras。 

Keras 是 一 个 高 级 封装 器 ， 封 装 了 面向 Python 的 API, API 接口 可 以 与 3 个 不 同 的 后 端 库 相 




















占 和 


ZN 3 


兼容 Theano 、 谷 歌 的 TensorFlow 和 微软 的 CNTK。 这 几 个 库 都 在 底层 实现 了 基本 的 神经 网 络 


单元 和 高 度 优化 的 线性 代数 库 ， 可 以 用 于 处 理 点 积 ， 以 支持 高 效 的 神经 网 络 和 矩阵 乘法 运算 。 


我 们 以 简单 的 异 或 问题 为 例 ， 看 看 如 何 用 Keras 来 训练 这 个 网 络 ， 如 代码 清单 5-4 所 示 。 


代码 清单 5-4 Keras 异 或 网 络 







































































>>> import numpy as np Kera 的 基础 模型 类 
>>> from keras.models import Sequential Dense 是 神经 元 的 全 连接 层 
>>> from keras.layers import Dense, Activation 
>>> from keras.optimizers impart SGD 随机 梯度 下 降 ， Keras 中 还 有 
>>> # Our examples for an exclusive OR. 些 其 他 优化 器 
>>> x_train = np.array([[0, 0], =A 

0, 1], 
e. ta 01% x train 是 二 维特 征 向 量 表示 的 训练 样本 列表 
1, 1]]) 
>>> y_train = np.array([[0], 

1], y_train 是 每 个 特征 向 量 样本 对 应 的 目标 输出 值 

t] rd 
8 0] ] ) < 一 一 
>>> model = Sequential () 全 连接 隐藏 层 包含 10 个 神经 元 
>>> num neurons = 10 
>>> model.add (Dense (num neurons, input dim=2)) I 
>>> model.add(Activation('tanh') ) 
>>> model.add(Dense (1) ) oe, rane s SAS 

= is IZA A i bts E A 

>>> model.add (Activation ('sigmoid')) 输出 层 包含 一 个 神经 元 ， 输 出 结果 是 二 分 类 值 (0 或 1) 
>>> model.summary () 
Layer (type) Output Shape Param # 
dense 18 (Dense) (None, 10) 30 
activation 6 (Activation) (None, 10) 0 
dense 19 (Dense) (None, 1) 11 
activation 7 (Activation) (None, 1) 0 
Total params: 41.0 
Trainable params: 41.0 input_dim 仅 在 第 一 层 中 使 用 ， 后 面 的 其 他 层 会 自动 计算 前 


Non-trainable params: 0.0 


model.summary () 提 伐 
算 一 下 : 10 个 神经 元 ， 





t 了 网 络 参 数 及 各 阶段 权重 数 〈 
每 个 神经 元 有 3 个 权重 ,其 中 有 两 个 是 输入 向 量 的 权重 ( 输入 向 量 中 的 每 个 

















一 层 输出 
征 向 量 ， 


的 














形状 ， 这 个 例子 中 输入 的 XOR 样本 是 二 维特 
因此 input_dim 设置 为 2 


Param \#) 的 概览 








。 我 们 可 以 快速 计 











值 对 应 一 个 权重 )， 还 有 一 个 是 偏 置 对 应 的 权重 ， 所 以 一 共有 30 个 权重 需要 学 习 。 输 出 层 中 有 10 个 
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权重 ,分 别 与 第 一 层 的 10 个 神经 元 一 一 对 应 ， 再 加 上 1 个 偏 置 权重 ， 所 以 该 层 共 有 11 个 权重 。 
下 面 的 代码 可 能 有 点 儿 不 容易 理解 : 
>>> sgd = SGD (lr=0.1) 


>>> model.compile(loss='binary_crossentropy', optimizer=sgd, 
metrics=['accuracy']) 


SGD 是 之 前 导入 的 随机 梯度 下 降 优 化 器 ， 模 型 用 它 来 最 小 化 误差 或 者 损失 。Ir 是 学 习 速 率 ， 
与 每 个 权重 的 误差 的 导数 结合 使 用 , 数值 越 大 模型 的 学 习 速 度 越 快 , 但 可 能 会 使 模型 无 法 找到 全 
局 极 小 值 ， 数 值 越 小 越 精确 ,但 会 增加 训练 时 间 ， 并 使 模型 更 容易 陷入 局 部 极 小 值 。 损 失 函 数 本 
身 也 定义 为 一 个 参数 , 在 这 里 用 的 是 binary_crossentropy。 metrics 参数 是 训练 过 程 中 输 
出 流 的 选项 列表 。 用 compile 方法 进行 编译 ,此 时 还 未 开始 训练 模型 ， 只 对 权重 进行 了 初始 化 ， 
大 家 也 可 以 尝试 一 下 用 这 个 随机 初始 状态 来 预测 ， 当 然 得 到 的 结果 只 是 随机 猜测 : 

>>> model.predict (x_train) 

[[ 0.5 ] 

0.43494844 


[ 
[ 0.50295198] 
[ 0.42517585] 




















] 

predict 方法 将 给 出 最 后 一 层 的 原始 输出 ， 在 这 个 例子 中 是 由 sigmoid 函数 生成 的 。 

之 后 再 没什么 好 写 的 了 , 但 是 这 里 还 没有 关于 答案 的 任何 知识 , 它 只 是 对 输入 使 用 了 随机 权 
重 。 接 下 来 可 以 试 着 进行 训练 ， 如 代码 清单 5-5 所 示 。 








代码 清单 5-5 ”用 异 或 训练 集 进行 模型 训练 



































从 这 里 开始 训 
model.fit(x_train, y train, epochs=100) 练 模型 
Epoch 1/100 
4/4 [==============================] - 0s - loss: 0.6917 - acc: 0.7500 
Epoch 2/100 
4/4 [==============================] - 0s - loss: 0.6911 - acc: 0.5000 
Epoch 3/100 
4/4 [==============================] - 0s - loss: 0.6906 - acc: 0.5000 
Epoch 100/100 
4/4 [==============================] - 0s - loss: 0.6661 - acc: 1.0000 











提示 在 第 一 次 训练 时 网 络 可 能 不 会 收敛 。 第 一 次 编译 可 能 以 随机 分 布 的 参数 结束 ， 导 致 难以 或 
者 不 能 得 到 全 局 极 小 值 。 如 果 遇 到 这 种 情况 ， 可 以 用 相同 的 参数 再 次 调用 model .fit， 或 者 添 
加 更 多 训练 周期 ， 看 看 网 络 能 否 收敛 。 或 者 也 可 以 用 不 同 的 随机 起 始点 来 重新 初始 化 网 络 ， 然 后 
再 次 尝试 fit。 如 果 使 用 后 面 这 种 方法 ,请 确保 没有 设置 随机 种 子 ， 否则 只 会 不 断 重复 同样 的 实 
验 结果 。 


当 网 络 一 遍 又 一 遍地 学 习 这 个 小 数据 集 时 ， 它 终于 弄 明 白 了 这 是 怎么 回 事 。 它 从 样本 中 “学 
会 ”了 什么 是 异 或 ! 这 就 是 神经 网 络 的 神奇 之 处 ， 它 将 指导 大 家 学 习 接 下 来 的 几 音 : 
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>>> model.predict_classes(x_train) ) 





4/4 [==============================] - Os 
[[0] 

1) 

1] 

0]] 
>>> model.predict (x train)) 
4/4 [==============================] - 0s 
[[ 0.0035659 ] 

0.99123639] 

0.99285167] 

0.00907462]] 


在 这 个 经 过 训练 的 模型 上 再 次 调用 predict (和 predict_classes ) 会 产生 更 好 的 结 
果 。 它 在 这 个 小 数据 集 上 获得 了 100% 的 精确 度 。 当 然 ， 精 确 率 并 不 是 评估 预测 模型 的 最 佳 标 
准 ， 但 对 这 个 小 例子 来 说 完全 可 以 说 明 问 题 。 接 下 来 在 代码 清单 5-6 中 展示 了 如 何 保 存 这 个 异 
或 模型 。 








代码 清单 5-6 ”保存 训练 好 的 模型 





>>> import h5py 


>>> model_structure = model.to_json() 
用 Keras 的 辅助 方法 将 网 络 结构 


>>> with open("basic_model.json", "w") as json file: 导出 为 JSON blob 类 型 以 备 后 用 
json_file.write (model_structure) 


>>> model.save_weights ("basic_weights.h5") 
训练 好 的 权重 必须 被 单独 保存 。 第 一 部 分 只 保存 网 络 结构 。 在 后 面 重 
新 加 载 网 络 结构 时 必须 对 其 重新 实例 化 


同样 也 有 对 应 的 方法 来 重新 实例 化 模型 ,这样 做 预测 时 不 必 再 去 重新 训练 模型 。 虽然 运行 这 
个 模型 只 需要 几 秒 , 但 是 在 后 面 的 章节 中 , 模型 的 运行 时 间 将 会 快速 增长 到 以 分 钟 、 小 时 甚至 天 
为 单位 ， 这 取决 于 硬件 性 能 和 模型 的 复杂 度 ， 所 以 请 准备 好 ! 
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5.1.8 展望 


随 着 神经 网 络 在 整个 深度 学 习 领 域 的 广泛 应 用 , 在 这 些 系 统 的 细节 上 展开 了 大 量 的 研究 (并 
将 继续 研究 下 去 ): 

m 各 种 激活 函数 (如 sigmoid 、 修 正 线性 单元 和 双 曲 正切 等 ); 
选择 一 个 适合 的 学 习 率 来 调整 误差 的 影响 ; 
通过 使 用 动量 模型 动态 调整 学 习 率 来 快速 找到 全 局 极 小 值 ; 
使 用 dropout， 在 给 定 的 训练 路 径 上 随机 选择 一 组 权重 丢弃 ， 防 止 模型 过 拟 合 ; 
权重 正则 化 ， 对 权重 进行 人 为 修正 ， 避 免 某 个 权重 相 比 于 其 余 权 重 过 大 或 过 小 〈 这 是 另 
一 种 避免 过 拟 合 的 策略 )。 
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这 个 列表 之 后 将 会 不 断 拓展 。 





5.1.9 ” 归 一 化 : 格式 化 输入 


申 经 网 络 接收 的 输入 是 向 量 形式 , 无 论 数据 内 容 是 什么 , 神经 网 络 都 能 执行 运算 , 不 过 其 中 
有 一 点 需要 注意 , 那 就 是 输入 归 一 化 。 这 是 许多 机 器 学 习 模 型 的 真 诺 。 假 设 有 一 个 房屋 分 类 的 例 
子 ， 预 测 在 市 场 上 的 销售 情况 。 现 在 只 有 两 个 数据 点 : 卧室 数量 和 最 终 售 价 。 这 个 数据 可 以 表示 
为 一 个 向 量 。 例 如 ， 以 27.5 万 美元 成 交 的 一 套 两 居室 的 房子 可 以 表示 为 : 


input vec = [2, 275000] 


当 网 络 在 这 个 数据 中 进行 学 习 时 , 在 第 一 层 中 , 为 了 与 取 值 较 大 的 价格 平等 竞争 ， 卧 室 对 应 
的 权重 必须 快速 增 大 。 因 此 ， 和 常见 的 做 法 是 将 数据 归 一 化 ,使 不 同样 本 中 的 每 个 元 素 都 能 保留 有 
效 信息 。 归 一 化 也 能 确保 每 个 神经 元 在 具有 相同 取 值 范围 的 输入 值 下 工作 , 同一 个 输入 向 量 中 不 
同 元 素 的 输入 范围 相同 。 有 几 种 常用 的 归 一 化 方法 ， 如 均值 归 一 化 、 特 征 缩放 和 变异 系数 。 最 终 
目标 是 在 不 丢失 信息 的 情况 下 ， 将 样本 中 每 个 元 素 的 取 值 范围 调整 为 [-1, 1] 或 [0, 1]. 

在 NLP 中 可 以 不 必 过 于 担心 这 一 点 , 因为 TF-IDF、 独 热 编码 和 Word2vec ( 大 家 很 快 就 会 看 
到 ) 已 经 做 过 归 一 化 了 。 如 果 输 入 特征 向 量 没有 经 过 归 一 化 , 例如 使 用 原始 词 频 或 计数 时 ,就 需 
要 牢记 这 一 点 。 

最 后 谈 谈 术语 。 关 于 感知 机 、 多 神经 元 层 、 深 度 学 习 的 定义 并 没有 达成 太 多 共识 , 但 是 我 们 
可 以 看 到 ， 根 据 是 否 必须 使 用 激活 函数 的 导数 来 适当 更 新 权重 可 以 方便 地 区 分 感知 机 和 神经 网 
络 。 在 这 一 背景 下 ， 本 书 主要 使 用 神经 网 络 和 深度 学 习 ， 由 于 “感知 机 ”一 词 在 历史 中 的 重要 地 
位 ， 我 们 也 保留 了 这 个 词 。 
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5.2 小 结 


代价 函数 最 小 化 是 一 种 学 习 路 径 。 

反 向 传播 算法 是 神经 网 络 的 学 习 手 段 。 

权重 对 模型 误差 的 贡献 与 其 更 新 量 直接 相关 。 
神经 网 络 的 核心 是 优化 絮 。 
监控 训练 过 程 中 误差 的 逐步 降低 过 程 ， 以 避 开 陷阱 〈 局 部 极 小 值 )。 
Keras 有 助 于 简化 神经 网 络 中 的 数学 运算 。 
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本 章 主 要 内 容 

图 词 向 量 的 创建 

图 预 训练 模型 的 使 用 

图 用 词 向 量 推理 解决 实际 问题 
图 词 向 量 可 视 化 

图 词 谈 入 的 神奇 用 法 





最 近 NLP 领域 中 最 令 人 兴奋 的 进展 之 一 是 词 向 量 的 “发 现 ”。 





本 章 将 帮助 大 家 理解 什么 是 词 





向 量 以 及 词 向 量 的 一 些 神奇 用 法 。 我 们 将 学 着 去 解释 前 儿童 中 未 曾 提 及 的 词义 的 模糊 特性 和 语义 





的 微妙 之 处 。 





在 前 几 章 中 ,我们 忽略 了 词 附近 的 上 下 文 信息 ， 包 括 每 个 词 周 于 的 其 他 词 、 相 邻 词 对 该 词 词 
义 的 影响 , 以 及 词 之 间 的 关系 对 句子 整体 语义 的 影响 。 词 袋 模型 是 将 文档 中 所 有 词 混在 一 起 进行 统 
计 。 在 本 章 中 ,我 们 将 从 少量 词 的 邻 域 中 创建 更 小 的 词 袋 ， 一 般 会 少 于 10 个 词 条 ， 同 时 确保 这 些 














邻 域 的 语义 不 会 溢出 到 相 邻 的 句子 中 。 这 个 过 程 有 助 于 集中 在 相关 词 上 进行 词 向 量 训练 。 


这 个 新 的 词 癌 量 将 能 够 识别 同义词 、 反 义 词 或 同类 别 的 词 ， 女 





A. SIH. Ho HE. A 


或 概念 等 。 我 们 在 第 4 章 中 用 潜在 语义 分 析 做 过 类 似 的 事情 , 但 是 对 词 邻 域 的 严格 限制 也 直接 影 








响 了 词 向 量 的 精确 率 , 词 、n-gram 和 文档 的 潜在 语义 分 析 并 没有 捕捉 到 词 的 所 有 字面 含义 , 更 不 














WAS 词 向 量 是 对 词语 义 或 食 义 的 数值 向 量 表示 ,包括 字面 意义 和 和 
词 的 内 涵 ， 如 “peopleness”( 人 ), “animalness” ( 动物 )、“placeness” 
甚至 “conceptness”( 概念 )。 将 所 有 这 些 含义 结合 起 来 构成 一 个 稠密 
这 个 稠密 向 量 支 持 查询 和 座 辑 推理 。 


6.1 语义 查询 与 类 比 





用 说 隐 含 或 隐藏 含义 了 。 并 且 ， 由 于 LSA 过 大 的 词 袋 ， 词 的 部 分 含义 也 丢失 了 。 





隐 含 意义 。 词 向 量 可 以 捕捉 到 
(平静 ) “thingness” ( 存在 )， 
(没有 零 值 ) 的 浮 点 数 向 量 。 


那么 , 这 样 的 词 向 量 有 什么 作用 呢 ? 你 有 没有 试 过 回忆 某 位 名 人 的 名 字 , 但 对 他 们 只 有 一 个 


大 致 的 印象 ， 例 如 : 


6.1 语义 查询 与 类 比 161 


She invented something to do with physics in Europe in the early 20th century. 
(20 世纪 初 ， 她 在 欧洲 发 明了 一 些 与 物理 学 有 关 的 东西 。) 


大 家 要 找 的 是 玛丽 : 居 里 ( Marie Curie )， 如 果 在 Google 或 Bing 中 输入 这 个 句子 ， 可 能 得 
不 到 直接 的 答案 。Google 搜索 可 能 只 会 给 出 一 些 著 名 物理 学 家 的 链接 ， 里 面包 括 男 人 和 女人 。 
大 家 需要 浏览 几 页 才能 找到 想 要 的 答案 。 但 是 一 旦 找到 了 “Marie Curie”, Google 或 Bing 会 记 下 
这 个 结果 ， 当 大 家 下 次 再 找 科 学 家 的 时 候 ， 它 们 可 能 就 能 提供 更 好 的 搜索 结果 。 

使 用 词 向 量 ， 可 以 将 “woman”“Europe” “physics” “scientist” “famous” 等 词 的 含义 组 合 起 









































来 搜索 词 或 名 字 ， 搜 索 结果 会 更 接近 要 查找 的 “Marie Curie"。 所 要 做 的 只 是 把 这 些 词 向 量 加 起 来 : 


>>> answer_vector = wv 
wv['scientist' 


‘woman'] + wv['Europe'] + wv[physics'] +\ 











在 本 章 中 , 我 们 将 展示 如 何 查询 这 个 问题 ， 以 及 如 何 从 词 向 量 中 去 除 性 别 偏向 ， 并 使 用 该 词 


向 量 计算 结果 : 


>>> answer_vector = wv 
wv['scientist' 





‘woman'] + wv['Europe'] + wv[physics'] +\ 
- wv['male'] - 2 * wv['man'] 


通过 词 向 量 , 我 们 可 以 从 “woman” 中 去 掉 “man”。 


类 比 问题 


如 果 把 问题 重新 表述 成 一 个 类 比 问 题 会 如 何 呢 ? 就 像 下 面 这 样 : 





Who is to nuclear physics what Louis Pasteur is to germs? 

(HIE HARA Ps 巴 斯 德 对 细菌 的 贡献 一 样 ? ) 

对 于 这 种 问题 ，Google、Bing 甚至 DuckDuckGo 都 爱 划 能 助 ”。 但 是 有 了 词 向 量 ， 解 决 方法 
就 会 很 简单 ， 只 需要 从 “Louis Pasteur” PARR “germs”, JAME “physics”: 


>>> answer_vector = wv['Louis_Pasteur'] - wv['germs'] + wv['physics'] 











如 果 大 家 对 那些 不 相关 领域 中 人 物 之 间 的 更 复杂 的 类 比 感 兴趣 , 如 音乐 家 和 科学 家 , 那么 也 


可 以 这 样 做 : 


Who is the Marie Curie of music? 
( 谁 是 音乐 界 的 玛丽 ， 居 里 ? ) 


或 者 














D 至 少 在 我 们 研究 本 书 时 它 是 这 么 所 做 的 。 我 们 必须 使 用 私有 浏览 器 窗口 来 确保 你 的 搜索 结果 会 和 我 们 的 





相似 。 
D 不 相信 的 话 你 可 以 去 试 试 。 
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Marie Curie is to science as who is to music? 

( 谁 在 音乐 界 的 地 位 ， 就 如 同 玛丽 ， 居 里 在 科学 界 的 地 位 一 样 ? ) 

大 家 能 想 出 如 何 使 用 词 向 量 的 数学 运算 来 解决 这 些 问题 吗 ? 

大 家 可 能 在 SAT. ACT 或 GRE 等 标准 化 考试 的 英语 类 比 部 分 见 过 类 似 的 问题 。 有 时 可 以 用 
正式 的 数学 符号 表示 ， 如 下 所 示 : 





























MARIE CURIE : SCIENCE :: ? : MUSIC 
这 样 是 不 是 能 更 容易 猜 出 对 应 的 词 向 量 数学 运算 了 ? 下 面 是 一 种 表示 : 
>>> wv['Marie Curie'] - wv['science'] + wv['music'] 


除了 人 和 职业 ， 还 可 以 回答 一 些 类 似 的 问题 ， 如 运动 队 和 城市 : 


The Timbers are to Portland as what is to Seattle? 


( 波 特 兰 的 伐木 者 队 对 应 于 西雅图 的 什么 队 ? ) 
在 标准 化 考试 中 这 个 问题 的 表示 如 下 : 

















TIMBERS : PORTLAND :: ? : SEATTLE 
不 过 更 普遍 的 情况 是 ， 在 标准 化 考试 中 用 的 是 英语 词汇 表 中 的 词 ， 问 的 问题 也 不 太 有 趣 : 
WALK : LEGS :: ? : MOUTH 
或 者 
ANALOGY : WORDS :: ? : NUMBERS 


























所 有 这 些 欲 言 难 吐 的 问题 ,即使 不 是 选择 题 ， 对 词 向 量 来 说 也 是 小 菜 一 碟 。 但 如 果 让 大 家 自 
己 去 记 住 这 些 名 字 或 词 ， 那 么 就 算是 提供 了 A, B, C, D 的 选项 ， 也 是 很 难 的 。 现 在 有 了 词 向 
量 ，NLP 就 可 以 解决 这 些 难题 。 

词 向 量 可 以 回答 这 些 模糊 的 问题 并 解决 类 比 问题 。 只 要 答案 的 词 向 量 在 词 向 量 的 词汇 表 中 ， 
词 向 量 就 能 记 住 这 些 词语 名 字 。 即 使 对 那些 无 法 以 搜索 查询 或 类 比 形式 提出 的 问题 , 词 向 量 也 能 
提供 有 效 的 解决 方案 。 在 6.2.1 节 中 大 家 会 学 到 词 向 量 中 一 些 与 查询 无 关 的 数学 知识 。 
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2012 年 ， 微 软 实习 生 Thomas Mikolov 发 现 了 一 种 用 一 定 维度 的 向 量 表示 词 的 含义 的 方法 ”。 
Mikolov 训练 了 一 个 神经 网 络 "来 预测 每 个 目标 词 附近 的 共 现 词 。2013 年 ，Mikolov 和 他 的 队友 在 














D 谷歌 的 预 训 练 词 向 量 模型 是 从 千 亿 级 词 的 新 闻 流 中 训练 得 到 的 , 一 般 情 况 下 大 家 使 用 的 词 都 会 在 这 个 词 
汇 表 中 ， 除 非 这 个 词 是 2013 年 以 后 发 明 的 。 

© 词 向 量 一 般 有 100 到 500 维 ， 取决 于 训练 它们 的 语料库 中 的 信息 广度 。 

© 这 只 是 一 个 单 层 神经 网 络 , 所 以 几乎 任何 线性 机 器 学 习 模 型 都 可 以 胜任 ， 如 对 率 回 归 、 截 断 的 SVD 、 线 
性 判别 分 析 和 朴素 贝 叶 斯 等 。 


Ae 
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谷歌 发 布 了 创建 这 些 词 向 量 的 软件 ， 称 为 Word2vec 。 

Word2vec 仅仅 基于 大 型 未 标记 文本 语料库 来 学 习 词 的 含义 ,而 不 需要 标记 Word2vec 词汇 表 中 的 词 。 
我 们 不 需要 告诉 Word2vec 算法 玛丽 ， 居 里 是 一 个 科学 家 、 伐 木 者 是 一 个 足球 队 、 西 雅 图 是 一 个 城市 、 
波 特 兰 是 俄 勒 办 州 和 缅 因 州 的 一 个 城市 , 也 不 需要 告诉 Word2vec 足球 是 一 项 运动 、 一 个 团队 是 一 群 人 ， 
或 者 城市 既是 地 点 也 是 社区 。Word2vec 完全 可 以 靠 自己 学 到 更 多 的 知识 ! 大 家 需要 做 的 只 是 准备 一 个 
足够 大 的 语料库 ， 其 中 在 科学 、 足 球 或 城市 相关 的 词 附近 提 到 玛丽 ， 居 里 、 伐 木 者 从 和 波 特 兰 。 

正 是 Word2vec 这 种 无 监督 的 特性 使 它 无 比 强大 ， 因 为 世界 上 充满 了 未 标记 、 未 分 类 、 非 结 
构 化 的 自然 语言 文本 。 

无 监督 学 习 和 监督 学 习 是 两 种 截然 不 同 的 机 器 学 习 方 法 。 


监督 学 习 

在 监督 学 习 中 ， 必 须 对 训练 数据 进行 某 种 标注 。 例 如 ， 第 4 章 中 短 消息 上 的 垃圾 信息 分 类 标签 就 是 
一 种 标注 。 又 如 ，Twitter 上 点 赞 数量 的 量化 值 也 是 一 种 标注 。 监 督学 习 是 大 多 数 人 想到 机 器 学 习 时 想到 
的 学 习 方 法 。 监 督学 习 只 有 在 能 够 度量 预期 输出 ( 标签 ) 与 其 预测 值 之 间 的 差异 时 ， 模 型 才能 变 得 更 好 。 


相反 ， 无 监督 学 习 使 机 器 能 够 直接 从 数据 中 学 习 ， 而 不 需要 人 类 的 任何 帮助 。 训 练 数据 不 需要 
人 工 组 织 、 结 构 化 或 标注 。 所 以 像 Word2vec 这 样 的 无 监督 学 习 算法 对 自然 语言 文本 来 说 非常 完美 。 


无 监督 学 习 

在 无 监督 学 习 中 ， 同 样 也 是 训练 模型 去 执行 某 种 任务 ， 但 是 没有 任何 任务 标注 ， 只 有 原始 数据 。 聚 类 算 
法 ， 如 Xk 均值 或 DBSCAN 就 属于 无 监督 学 习 ， 像 主 成 分 分 析 (PCA ) 和 -分 布 领域 嵌入 算法 ( t-Distributed 
Stochastic Neighbor Embedding, t-SNE ) 这 样 的 降 维 算法 也 属于 无 监督 机 器 学 习 技术 。 在 无 监督 学 习 中 ， 
模型 从 数据 点 自身 的 关系 中 去 发 现 模式 。 通 过 向 无 监督 模型 投入 更 多 的 数据 ， 它 可 以 变 得 更 智能 ( 更 精确 )。 


教 网 络 预测 句子 中 目标 词 附近 的 词 ， 而 不 是 通过 带 有 词 含义 的 标签 来 直接 学 习 目 标 词 的 含 
义 。 在 这 个 意义 上 ， 也 可 以 算是 有 标注 : 竺 预测 的 相 邻 词 。 不 过 这 些 标注 来 自 数据 集 本 身 ， 不 需 
要 手工 标注 ， 因 此 Word2vec 训练 算法 确实 是 一 个 无 监督 学 习 算 法 。 

使 用 无 监督 训练 技术 的 另 一 个 领域 是 时 间 序 列 建 模 。 时 间 序 列 模型 通常 被 训练 在 一 个 序列 中 
基于 前 一 个 窗口 的 值 预测 下 一 个 值 。 时 间 序 列 问题 与 自然 语言 问题 在 很 多 方面 非常 相似 , 它们 处 
理 的 都 是 有 序 值 ( 词 或 数值 )。 

预测 本 身 并 不 是 Word2vec 的 关键 ,预测 只 是 达到 目的 的 一 种 手段 。 大 家 真正 关心 的 是 它 的 内 
部 表示 ， 即 Word2vec 在 生成 这 些 预测 过 程 中 逐渐 构建 的 向 量 。 与 第 4 章 中 的 潜在 语义 分 析 和 潜在 
狄 利克 雷 分 布 中 的 词 -主题 问 量 不 同 ,，Word2vec 词 癌 量 表示 能 够 捕 提 更 丰富 的 目标 词 含义 (语义 )。 

注意 通过 使 用 低 维 内 部 表示 来 重新 预测 输入 的 模型 称 为 自 编码 器 。 这 听 起 来 有 点 儿 奇 怪 , 就 像 是 让 机 

器 把 大 家 的 提问 重新 传 回 来 ， 而 且 在 提问 时 它 还 不 能 记录 问题 ， 机 器 必须 把 提问 压缩 成 简写 形式 ， 而 且 

对 所 有 提 的 问题 都 使 用 相同 的 简写 算法 (函数 )。 机 器 最 终 会 学 到 问题 语句 的 简写 ( 向 量 ) 表示 。 
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如 果 大 家 想 了 解 更 多 关于 创建 高 维 对 象 压缩 表示 (Wid) 的 无 监督 深度 学 习 模型 ， 可 以 搜索 术语 “ 自 
编码 器 ” "， 这 种 模型 也 是 一 种 常见 的 神经 网 络 ， 儿 乎 可 以 应 用 于 任何 数据 集 。 


Word2vec 将 学 习 到 一 些 大 家 可 能 认为 与 所 有 词 本 身 并 不 相关 的 东西 ， 例 如 大 家 是 否 知道 其 
实 每 个 词 都 有 一 定 的 地 理 位 置 、 情 感 (积极 性 ) 和 性 别 倾向 性 ?如 果 语 料 库 中 有 任何 一 个 词 具 有 
某 种 属性 , 如 “placeness”( 平和 )、“peopleness”( 有 人 情 味 )、“conceptness”( 概念 化 ) 或 “femaleness” 
(女性 化 ) 等 ,那么 其 他 所 有 的 词 也 会 在 词 向 量 的 这 些 属性 上 得 分 。 当 Word2vec 学 习 词 向 量 时 ， 
可 以 认为 某 个 词 的 意义 “感染 ”了 其 相 邻 词 。 

语料库 中 的 所 有 词 都 将 由 数字 向 量 表示 ， 类 似 于 第 4 章 中 的 词 -主题 向 量 ， 只 是 这 次 的 主题 
具有 更 具体 、 更 准确 的 含义 。 在 LSA 中 ， 词 只 需要 在 相同 的 文档 中 出 现 ， 它 们 的 含义 就 会 相互 
“感染 ”， 并 融入 到 词 的 主题 向 量 中 。 对 于 Word2vec 词 向 量 ， 这 些 词 必须 彼此 相 邻 一 一 通常 在 同 
一 个 句子 中 的 间隔 不 超过 5 个 词 。 而 且 Word2vec 词 向 量 的 主题 权重 可 以 通过 加 减 运 算 来 创建 新 
的 有 意义 的 词 向 量 ! 

为 了 帮助 大 家 更 直观 地 理解 词 向 量 , 可 以 把 词 向 量 看 作 是 一 个 权重 或 分 数 的 列表 , 列表 中 的 
每 个 权重 或 分 数 都 对 应 于 这 个 词 在 某 个 特定 维度 的 含义 ， 如 代码 清单 6-1 所 示 。 



























































代码 清单 6-1 计算 属性 向 量 





>>> from nlpia.book.examples.ch06 nessvectors import * 
>>> nessvector('Marie Curie').round(2) 








placeness -0.46 

peopleness 0.35 Word2vec 的 预 训练 模型 非常 
animalness 0.17 大 ， 除 非 内 存 足够 大 ， 一 般 不 
conceptness -0.32 导入 这 个 模块 
femaleness 0.26 

















大 家 的 属性 向 量 维 度 肖 定 会 更 有 趣 目 更 有 
]， 如 “trumpness”“ghandiness” 之 类 的 

你 可 以 使 用 nlpia 提供 的 工具 为 Word2vec 词汇 表 中 的 任何 词 或 n-gram 计算 属性 向 量 (nessvector ) 
( src/nlpia/book/examples/ch06_nessvectors.py )， 这 种 方法 适用 于 我 们 创建 的 所 有 属性 。 

Mikolov 在 思考 如 何 用 数字 向 量 表 示 词 的 过 程 中 开发 了 Word2vec 算法 ， 而 且 他 不 满足 于 不 
太 精 确 的 词 “ 情 感 ” 计 算 ， 如 之 前 在 第 4 章 介绍 的 那些 方法 。 他 想 做 的 是 面向 向 量 的 推理 ， 就 像 
大 家 在 前 一 节 中 处 理 的 类 比 问题 。 这 个 概念 听 起 来 很 有 趣 , 这 意味 着 可 以 用 词 向 量 做 数学 运算 , 再 
把 得 到 的 结果 向 量 转换 成 词 , 这 样 就 能 得 到 有 意义 的 答案 。 大 家 可 以 对 词 向 量 做 加 减法 来 对 它们 所 
表示 的 词 进 行 推理 ， 从 而 可 以 回答 类 似 于 之 前 例子 中 的 问题 ， 如 下 所 示 : 


wv['Timbers'] - wv['Portland'] + wv['Seattle'] = ? 















































D 参见 标题 为 “Unsupervised Feature Learning and Deep Learning Tutorial” 的 网 页 。 
D 这 里 为 那些 对 体育 不 感 兴趣 的 人 简单 介绍 一 下 ， 波 特 兰 伐木 者 队 〈 Portland Timbers ) 和 西雅图 海湾 人 队 
eattle Sounders ) 是 美国 职业 足球 大 联盟 中 的 球 队 。 
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在 理想 情况 下 ， 和 而 望 这 个 数学 运算 〈 词 向 量 推理 ) 能 返回 这 个 结果 : 


wv['Seattle Sounders'] 


类 似 地 ， 对 于 类 比 问题 “玛丽 居 里 ”在 “物理 学 ”的 地 位 , 正如 ”在 “古典 音乐 ”中 





的 地 位 ? “， 可 以 理解 为 下 面 这 样 的 数学 表达 式 : 


wv['Marie Curie'] - wv['physics'] + wv['classical_music'] 








=? 


在 本 章 中 ,我 们 将 对 上 一 章 中 介绍 的 LSA 词 向 量 表示 法 进行 改进 。LSA 中 基于 整 篇 文档 构建 的 
主题 向 量 非常 适合 文档 分 类 、 语 义 搜 索 和 聚 类 。 但 是 LSA 生成 的 主题 - 词 向 量 不 够 精确 ， 不 能 用 于 短 
语 或 复合 词 的 语义 推理 、 分 类 和 聚 类 。 大 家 很 快 将 学 习 如 何 训练 单 层 神经 网 络 来 生成 这 些 更 精确 、 更 
有 趣 的 词 向 量 , 然后 就 会 明白 为 什么 在 很 多 涉及 短文 本 或 语句 的 应 用 中 它们 取代 了 LSA 词 -主题 向 量 。 











6.2.1 面向 向 量 的 推理 











Word2vec 于 2013 年 在 ACL 会 议 上 首次 公开 亮相 ， 在 题 为 “连续 空间 词 表示 中 的 语言 规律 ” 
报告 中 描述 了 一 个 精确 得 惊人 的 语言 模型 。 在 回答 类 比 问题 上 , Word2vec 词 艇 入 的 精确 率 ( 45% ) 









































是 LSA 模型 精确 率 (11% ) 的 4 倍 。 这 个 精确 率 太 邻 人 吃惊 了 ， 以 至 于 Mikolov 最 初 的 论文 被 


ICLR 拒 稿 了 。 审 稿 人 认为 这 个 模型 的 效果 好 得 让 人 不 敢 相信 。Mikolov 的 团队 花 了 将 近 一 年 的 


时 间 发 布 了 源 代码 ， 然 后 才 被 计算 语言 学 协会 (ACL ) 接收 。 
有 了 词 向 量 之 后 ， 类 似 于 
Portland Timbers + Seattle - Portland = ? 


的 问题 就 可 以 用 向 量 代 数 进行 解答 ( 如 图 6-1 所 示 )。 





xl 








Seattle ____------77777 


Portland 


Seattle Sounders 











z] 6-1 Word2vec 代数 几何 








Seattle + Portland Timbers — Portland = ? 


Portland Timbers 


x2 


Word2vec 模型 包含 词 之 间 的 关系 信息 , 包括 词 的 相似 性 。Word2vec 模型 “知道 ”术语 Portland 








®© 见 ICLR2013 公开 评论 。 
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( 波 特 兰 ) 和 Portland Timbers( 波 特 兰 伐木 者 队 ) 之 间 的 距离 与 Seattle( 西雅图 ) 和 Seattle Sounders 
( 西雅图 海湾 人 队 ) 之 间 的 距离 大 致 相同 ,， 并且 这 些 距 离 的 方向 (向量 对 之 间 的 差异 ) 大 致 相同 。 
所 以 Word2vec 模型 可 以 用 来 回答 球 队 的 类 比 问 题 。 大 家 可 以 把 Portland 和 Seattle 两 个 向 量 之 
间 的 差 值 加 到 表示 Portland Timbers 的 向 量 上 ， 这 样 得 到 的 结果 应 该 接近 术语 Seattle Sounders 
的 向 量 : 





0.0168] | 0.093 0.104 0.006 
0.007 —0.028 0.0883 | | —0.109 


+ 
0.247 —0.214 | | -0.318 0.352 





公式 6-1 计算 足球 队 问 题 的 答案 








在 进行 词 向 量 的 加 减法 运算 后 ， 得 到 的 向 量 一 般 不 会 正好 等 于 词 向 量 表 中 的 某 个 向 量 。 不 过 ， 
Word2vec 词 向 量 通常 有 100 维 ， 每 个 维度 上 都 有 连续 的 实 值 ， 词 向 量 表 中 与 运算 结果 最 接近 的 
向 量 通常 就 是 NLP 问题 的 答案 。 与 这 个 相 邻 向 量 相 关联 的 词 正 是 我 们 关于 运动 了 从 和 城市 问题 的 
自然 语言 答案 。 

Word2vec 可 以 将 表示 词 条 的 出 现 次 数 和 频率 的 自然 语言 向 量 转换 为 更 低 维 的 Word2vec 向 量 
空间 。 在 这 个 低 维 空间 中 ,我 们 可 以 进行 数学 运算 ,并 将 结果 转换 回 自然 语言 空间 。 大 家 可 以 想 
象 一 下 这 个 功能 在 聊天 机 器 人 、 搜 索引 擎 、 问 答 系 统 或 信息 提取 算法 中 将 发 挥 多 么 重要 的 作用 。 

注意 Mikolov 和 他 的 同事 们 在 2013 年 发 表 的 第 一 篇 论文 中 在 答案 精确 率 上 只 有 40%。 但 在 2013 

年 ， 这 种 方法 比 当 时 其 他 任何 一 种 语义 推理 方法 的 效果 都 要 好 很 多 。 自 首次 发 布 以 来 ， 通 过 在 非常 

大 的 语料库 上 进行 训练 ，Word2vec 的 效果 得 到 了 进一步 的 提高 。 有 一 种 实现 方案 是 从 包含 1000 亿 

个 词 的 谷歌 新 闻 语 料 库 中 训练 得 到 的 。 这 个 预 训练 模型 在 后 文中 还 将 出 现 很 多 次 。 


研究 团队 还 发 现 了 单词 的 单数 和 复数 形式 之 间 的 差异 在 大 小 和 方向 上 基本 相同 : 
























































Neate = Neees 全 = Meus ~ Xcookie 一 Neooles 

公式 6-2 单词 的 单数 与 复数 形式 之 间 的 距离 
但 他 们 的 发 现 并 不 止 于 此 。 他 们 还 发 现 ， 距 离 关 系 远 远 超出 简单 的 单 复数 关系 。 距 离 适 用 于 其 他 
语义 关系 。Word2vec 人 研究 人 员 很 快 发 现 他 们 还 可 以 回答 一 些 涉及 地 理 、 文化 和 人 口 统计 的 问题 , 例如 : 


"San Francisco is to California as what is to Colorado?" 














San Francisco - California + Colorado = Denver 


使 用 词 向 量 的 更 多 原因 
词 向 量 表示 法 不 但 对 推理 和 类 比 问 题 有 用 , 而 且 对 其 他 所 有 使 用 自然 语言 向 量 空间 模型 处 理 
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的 问题 都 有 用 。 当 大 家 从 本 章 中 学 会 如 何 使 用 词 向 量 后 ， 大 家 的 NLP 流水 线 的 精确 性 和 实用 性 
都 将 得 到 提高 ， 包 括 模式 匹配 、 建 模 和 可 视 化 等 。 

例如 ， 在 本 章 后 面 的 部 分 ， 我 们 将 展示 如 何在 二 维 语义 图 上 对 词 向 量 进行 可 视 化 展示 ， 如 图 6-2 
所 示 。 大 家 可 以 把 它 想象 成 一 个 旅游 经 典 的 卡通 地 图 , 或 者 在 公交 车站 报亭 常见 到 的 那 种 印象 铂 
地 图 。 在 这 些 卡通 地 图 中 ,语义 上 接近 的 对 象 在 地 理 位 置 上 也 彼此 相 邻 ,我 们 的 艺术 家 ( Word2vec ) 
根据 对 各 个 地 点 的 “感受 ”来 调整 图 标的 比例 和 位 置 。 通 过 词 向 量 ， 机 器 可 以 感知 词 和 地 点 以 及 
它们 之 间 的 距离 。 因 此 ， 机 器 将 能 够 使 用 词 向 量 来 生成 印象 派 地 图 ， 如 图 6-2 所 示 。 ” 
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图 6-2 10 个 美国 城市 的 词 向 量 在 二 维 图 上 的 投影 


如 果 大 家 熟悉 这 些 美 国 城市 ， 可 能 会 意识 到 这 并 不 是 一 个 准确 的 地 理 地 图 ， 但 它 是 一 个 很 好 的 语 
义 地 图 。 例 如 ， 我 自己 就 经 常会 弄 混 休斯顿 (Houston ) 和 达拉斯 (Dallas ) 这 两 个 得 克 萨 斯 州 的 大 城 
市 ,它们 的 词 向 量 几 乎 相同 。 在 我 的 脑海 中 ， 加 利 福 尼 亚 大 城市 的 词 向 量 构 成 了 一 个 很 好 的 文化 三 角 。 

词 向 量 对 聊天 机 器 人 和 搜索 引擎 也 很 有 用 。 在 这 些 应 用 场景 中 , 词 向 量 有 助 于 克服 模式 匹配 或 关 
键 词 匹配 的 刻板 性 和 脆弱 性 。 假 设 大 家 搜索 一 个 来 自得 克 萨 斯 州 休斯顿 的 名 人 的 信息 ， 但 并 不 知道 他 
已 经 搬 到 了 达拉斯 。 从 图 6-2 中 可 以 看 出 ， 使 用 词 向 量 进行 语义 搜索 可 以 很 容易 地 计算 出 包括 城市 名 
称 (如 达拉斯 和 休斯顿 ) 的 搜索 结果 。 基 于 字符 的 模式 无 法 理解 “tell me about a Denver omelette” (ER 
我 说 说 丹佛 前 和 蛋 ) 和 “tell me about the Denver Nuggets”( 跟 我 说 说 丹佛 掘 金 队 ) 之 间 的 区 别 ， 但 是 词 
问 量 可 以 。 基 于 词 向 量 的 模式 可 以 区 分 食物 ( 前 和 蛋 ) 和 篮球 队 ( 掘 金 )， 从 而 对 用 户 做 出 适当 的 回应 。 





















































































































































6.2.2 ”如 何 计 算 Word2vec 表示 
词 向 量 将 词 的 语义 表示 为 训练 语料库 中 上 下 文中 的 向 量 。 这 不 仅 能 回答 类 比 问题 ， 还 能 让 

















D 大 家 可 以 在 本 书 源 代码 中 找到 生成 这 些 交互 式 二 维 词 图 的 代码 ( src/nlpia/book/examples/ch06_w2v_us cities_ 


visualiz.py ). 
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大 家 用 更 为 通用 的 向 量 代 数 去 推理 词 的 含义 。 但 是 如 何 去 计算 这 些 向 量 表 示 呢 ? 训练 Word2vec 
般 入 有 两 种 方法 : 
加 skip-gram 方法 ， 基 于 目标 词 (输入 词 ) 预测 上 下 文 (输出 词 ); 
m 连续 词 袋 (continuous bag-of-words, CBOW ) 方法 ， 基 于 邻近 词 (输入 词 ) 预测 目标 词 
(输出 词 )。 

接 下 来 的 章节 中 我 们 将 展示 如 何 及 何 时 使 用 每 种 方法 去 训练 Word2vec 模型 。 

词 向 量 表示 的 计算 是 资源 密集 型 的 。 幸运 的 是 ,对 于 大 多 数 应 用 程序 ,不 需要 计算 自己 的 词 
向 量 , 直接 使 用 预 训练 好 的 模型 即 可 。 很 多 拥有 大 型 语料库 并 能 负担 计算 资源 开销 的 公司 已 经 
源 了 它们 的 预 训练 词 向 量 模型 。 在 本 章 的 后 续 部 分 ， 我们 将 介绍 如 何 使 用 这 些 预 训练 好 的 词 模型 ， 
如 GloVe 和 fastText。 



































提示 在 维基 百科 、DBPedia、Twitter 和 Freebase 等 语料库 上 都 有 预 训练 好 的 词 向 量 表示 ， 这 些 预 

训练 模型 对 大 家 的 词 向 量 应 用 程序 来 说 会 是 个 很 好 的 起 点 : 

加 ”谷歌 提供 一 个 基于 英文 谷歌 新 闻 报 道 的 预 训练 Word2vec 模型 ; 

m Facebook 发 布 了 支持 294 种 语言 的 称 为 fastText 的 词 向 量 模型 ”。 

但 是 ， 对 于 依赖 专业 词汇 表 或 语义 关系 的 领域 , 通用 的 词 向 量 模 型 就 不 够 了 。 例 如， 如 果 和 希 
望 “python” 明 确 地 表示 编程 语言 而 不 是 爬行 动物 ， 就 需要 一 个 特定 领域 的 词 向 量 模型 。 如 果 需 
要 将 词 向 量 的 使 用 限定 在 特定 领域 中 ， 就 需要 用 这 个 特定 领域 的 文本 数据 来 进行 训练 。 












































1. skip-gram 方法 


在 skip-gram 训练 方法 中 ， 需 要 预测 输入 词 周围 窗口 的 词 。 在 下 面 这 个 关于 Monet 的 句子 的 例子 
中 ,“painted” 是 神经 网 络 的 训练 输入 ， 对 应 的 预测 


















































周围 词 wa、w1 
词 输出 是 其 相信 5 词 “Claude”Monet” “the” FI “Grand” , 
skip-gram 相应 的 训练 输出 示例 如 图 6-3 所 示 。 
Claude Monet | painted the Grand | Canal of Venice in 1908. 
什么 是 skip-gram skip-gram 是 一 种 包含 间隙 的 跳 \ 
KA n-gram 语法 ， 因 为 我 们 跳 过 了 中 间 词 条 。 在 这.，_ AEI Wai Wao 
词 = 要 预测 的 词 


个 例子 中 ， 基 于 输入 词 “painted” 去 预测 “Claude”， = 输入 词 

跳 过 了 “Monet”。 图 6-3 skip-gram 方法 的 输入 与 输出 

用 来 预测 周围 词 的 神经 网 络 结构 与 大 家 在 第 5 章 学 的 网 络 结构 类 似 。 如 图 6-4 所 示 ， 网 络 由 两 
层 权重 组 成 ， 隐 娠 层 由 个 神经 元 组 成 ， 其 中 表示 词 的 向 量 维 数 。 输 入 层 和 输出 层 都 包含 M 个 神 
经 元 ， 其 中 M 是 模型 的 词汇 表 中 的 词 的 总 数 。 输 出 层 激 活 函 数 是 分 类 问题 中 常用 的 softmax 函数 。 
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详 见 标 题 为 “GitHub - 3Top/word2vec-api: Simple web service providing a word embedding model” 的 网 页 。 
@ 在 Google Drive 上 可 以 获得 谷歌 原始 的 300 维 Word2vec 模型 。 
详 见 标题 为 “GitHub - facebookresearch/fastText: Library for fast text representation and classification” 的 网 页 。 
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2. 什么 是 softmax 


当 神 经 网 络 的 目标 是 学 习 分 类 问题 时 ， 经 常用 softmax 函数 作为 神经 网 络 输出 层 的 激活 函数 。 
softmax 可 以 将 输出 结果 压缩 为 0 到 1 之 间 的 值 ， 所 有 输出 的 和 加 起 来 等 于 1。 这 样 ，softmax K 
数 的 输出 层 结果 就 可 以 当 作 概率 。 

对 于 天 个 输出 节点 ，softmax 输出 值 通过 归 一 化 指数 函数 计算 如 下 : 








e” 
a 7 > e% 
k=1 


假设 一 个 包含 3 个 神经 元 的 输出 层 的 输出 向 量 为 





0.5 
0.9 
0.2 


P= 








公式 6-3 三维 向 量 示 例 





则 经 过 softmax 激活 函数 压缩 后 的 结果 向 量 将 为 





0.309 
o(v)=| 0.461 
0.229 


公式 6-4 三 维 向 量 经 softmax 函数 压缩 后 的 结果 








注意 ， 这 些 值 的 和 ( 四 舍 五 人 到 3 位 有 效 数 字 ) 约 等 于 1.0， 类 似 于 概率 分 布 。 
6-4 给 出 了 前 两 个 周围 词 在 网 络 中 的 输入 值 和 输出 值 。 在 本 例 中 , 输入 词 为 “Monet”, 根 
据 训练 数据 ， 网 络 的 期 望 输出 将 是 “Claude” 或 “painted”。 


注意 如 果 大 家 看 一 下 词 谨 入 的 神经 网 络 结构 ， 会 注意 到 其 实现 与 第 5 章 中 提 到 的 网 络 结构 类 似 。 














网 络 如 何 学 习 向 量 表示 

我 们 将 使 用 第 2 章 中 的 技术 来 训练 Word2vec 模型 。 例 如 ， 在 表 6-1 FP, w, RIEME t 处 
的 词 条 独 热 向 量 (one-hot vector )， 如 果 使 用 skip-gram 窗口 大 小 为 2 (半径 ) 来 训练 Word2vec 
模型 ， 则 需要 考虑 每 个 目标 词 前 后 的 两 个 词 。 这 里 大 家 可 以 使 用 第 2 章 中 提 到 的 5-gram 分 词 器 
来 将 下 面 的 句子 转换 为 10 个 以 输入 词 为 中 心 的 5-gram， 原 句子 中 的 每 个 词 作为 一 个 输入 词 都 对 


应 一 个 5-gram。 
































>>> sentence = "Claude Monet painted the Grand Canal of Venice in 1806." 
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独 热 向 量 softmax 输 出 
“Monet” m 个 隐藏 层 神经 元 “Claude” 
Claude 
Monet 
painted 
the 
1806 
softmax 输 出 
“painted” 
Claude Claude 
Monet Monet 
painted painted 
the the 
1806 1806 
图 6-4 skip-gram 训练 神经 网 络 示例 
表 6-1 Monet 句子 中 的 10 个 5-gram 
输入 词 wi 期 望 输 出 wi 期 望 输出 wi-1 期 望 输出 Wee 期 望 输出 Wez 
Claud Monet painted 
Monet Claud painted the 
painted Claud Monet the Grand 
the Monet painted Grand Canal 
Grand painted the Canal of 
Canal the Grand of Venice 
of Grand Canal Venice in 
Venice Canal of in 1908 
in of Venice 1908 
1908 Venice in 
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由 输入 词 和 周围 词 (输出 词 ) 组 成 的 训练 集 构成 了 这 个 神经 网 络 训练 的 基础 数据 集 。 在 周围 词 
数量 为 4 的 情况 下 ,将 使 用 4 次 迭代 训练 网 络 ， 每 次 迭代 都 是 基于 输入 词 预测 其 中 一 个 输出 词 。 

每 个 词 在 进入 网 络 前 被 表示 为 一 个 独 热 向 量 ( 见 第 2 章 )。 神 经 网 络 做 词 嵌入 的 输出 向 量 也 类 
似 于 一 个 独 热 向 量 。 通 过 输出 层 节 点 ( 输出 层 上 每 个 节点 对 应 于 词汇 表 中 的 一 个 词 条 ) 的 softmax 
激活 函数 来 计算 输出 词 是 输入 词 的 周围 词 的 概率 。 然 后 将 最 大 概率 的 词 转换 为 1， 其余 所 有 词 转换 
为 0， 从 而 将 输出 词 的 概率 向 量 转换 为 一 个 独 热 向 量 ， 这 样 处 理 可 以 简 小 损失 函数 的 计算 复杂 度 。 

当 完 成 神经 网 络 训练 后 , 经 过 训练 后 的 网 络 权重 可 以 用 来 表示 语义 。 经 过 词 条 独 热 向 量 的 转 
换 ， 权重 和 矩阵 中 的 一 行 表示 语料库 词汇 表 中 的 一 个 词 。 语 义 相 似 的 词 被 训练 为 预测 相似 的 周围 词 ， 
因此 经 过 训练 之 后 也 会 有 相似 的 向 量 。 这 简直 就 是 魔法 ! 

词 向 量 模型 训练 结束 后 便 不 再 进行 额外 的 训练 , 因此 可 以 忽略 网 络 的 输出 层 , 只 用 隐藏 层 的 
输入 权重 来 作为 词 戏 入 表示 。 换 名 话说， 这 个 权重 矩阵 就 是 大 家 所 需要 的 词 做 入 。 输 入 词 项 的 独 
热 问 量 表示 与 权重 的 点 积 代表 词 向 量 谈 入 。 

用 线性 代数 检索 词 向 量 

神经 网 络 中 隐藏 层 的 权重 通常 表示 为 矩阵 : 每 列表 示 一 个 输入 层 神经 元 ,每 行 表示 一 个 输出 
层 神经 元 。 这 样 就 能 通过 将 权重 矩阵 与 上 一 层 输 入 的 列 向 量 相 乘 ， 来 生成 指向 下 一 层 的 输出 列 向 



























































量 (如 图 6-5 所 示 )。 因 此， 如 果 我 们 将 一 个 独 热 行 向 量 与 训练 好 的 权重 矩阵 相 乘 ( 点 积 运算 ), 将 
从 每 个 神经 元 〈 从 每 个 矩阵 列 ) 得 到 一 个 权重 。 同 样 ， 也 可 以 用 权重 矩阵 与 词 的 独 热 列 向 量 相 乘 。 


3 个 神经 元 
的 权重 矩阵 





词汇 表 中 的 6 个 词 
的 独 热 向 量 


O;1/0;)0);0;/0)] x 


点 积 计算 


(0x0.03) + (1x0.06) + (0x0.14) + (0x0.24) + (0x0.12) + (0x0.32) 
= |(0x0.92)+(1x0.32) + (0x0.62) + (0x0.99) + (0x0.02) + (0x0.23) 


(0x0.66) + (1x0.61) + (0x0.43) + (0x0.62) + (0x0.44) + (0x0.55) | 



































三 维 结果 词 向 量 
图 6-5 ” 独 热 向 量 转换 为 词 向 量 


EKE, 独 热 向 量 的 点 积 运算 只 是 从 权重 矩阵 中 选 出 包含 这 个 词 权 重 的 那 一 行 , 来 作为 该 词 的 词 向 
量 。 大 家 也 可 以 只 使 用 词汇 表 中 的 行 号 或 索引 号 进行 检索 ， 同 样 也 可 以 轻松 地 从 权重 矩阵 中 得 到 该 行 。 
3. 连续 词 袋 方法 

在 连续 词 袋 (CBOW ) 方法 中 ， 将 根据 周围 词 去 预测 中 心 词 (如 图 6-5、 图 6-6 和 表 6-2 所 
示 )。 这 里 不 用 创建 输入 和 输出 词 条 标记 对 ， 而 可 以 创建 一 个 多 热 向 量 (multi-hot vector ) 作为 输 
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词 向 量 推理 ( Word2vec ) 


入 向 量 。 多 热 向 量 是 围绕 中 心 词 的 所 有 周围 词 的 独 热 向 量 的 和 。 


a 周围 词 wi.2、wi.1 


Claude Monet | painted 


a 


= 要 预测 的 词 
图 6-6 CBOW 方法 的 训练 输入 输出 示例 


目标 词 w 





Canal of Venice in 1908. 
an 周围 词 wi,1、 


= 输入 词 


Wri 


表 6-2 CBOW 方法 中 Monet 句子 中 的 10 个 5-gram 
































输入 词 Wi-2 输入 词 Wi-1 输入 词 Wert 输入 词 Wie 期 望 输 出 wi 
Monet painted Claud 
Claud painted the Monet 
Claud Monet the Grand painted 
Monet painted Grand Canal the 
painted the Canal of Grand 
the Grand of Venice Canal 
Grand Canal Venice in of 
Canal of in 1908 Venice 
of Venice 1908 in 
Venice in 1908 

















大 家 可 以 在 训练 集 的 基础 上 创建 多 热 向 量 作为 输入 ， 并 将 其 映射 到 目标 词 上 作为 输出 。 多 热 向 
围 词 对 的 独 热 向 量 之 和 ws + Wet Wart waz。 以 多 热 向 量 作为 输入 ， 目 标 词 w, 作 为 输出 ， 以 








Es 


量 是 导 

















of 


构建 训练 样本 对 。 在 训练 过 程 中 ， 由 输出 层 softmax 导出 概率 最 大 的 节点 作为 输出 ( 如 图 6-7 所 示 )。 


n 个 隐藏 层 神经 元 


多 热 向 量 softmax 输 出 “painted” 





Claude 


e 
Monet 


painted 0 








图 6-7 CBOW Word2vec 神经 网 络 





Claude 


Monet 


painted 


the 


Grand 


1806 
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连续 词 袋 和 词 袋 

在 前 面 的 章节 中 ， 我 们 介绍 了 词 袋 的 概念 ， 那 么 它 与 连续 词 袋 有 什么 区 别 呢 ? 为 了 构建 句子 中 词 之 
间 的 关系 ， 可 以 在 句子 中 设置 一 个 滑动 窗口 来 选择 目标 词 的 周围 词 ， 滑 动 窗口 内 的 所 有 词 将 被 认为 是 窗 
口中 央 的 目标 词 的 连续 词 袋 的 内 容 。 












































Claude Monet painted the Grand|Canal of Venice in 1908. 
Claude|Monet painted the Grand Canallof Venice in 1908. 
Claude Monet|painted the Grand Canal of |Venice in 1908. 


上 图 是 一 个 长 度 为 5 的 滑动 窗口 通过 句子 “Claude Monet painted the Grand Canal of Venice in 
1908.” 时 产生 的 连续 词 袋 ， 在 第 一 个 CBOW 滑动 窗口 中 ， 目 标 词 ( 中 心 词 ) = “painted”, 4 个 周围 词 
z= “Claude” “Monet” “the” #0 “Grand”. 

























































































4. skip-gram 和 CBOW: 什么 时 候 用 哪 种 方法 


Mikolov 强调 ，skip-gram 方法 对 于 小 型 语料库 和 一 些 罕见 的 词 项 比较 适用 。 在 skip-gram 方 
法 中 ， 由 于 网 络 结构 的 原因 ， 将 会 产生 更 多 的 训练 样本 。 但 CBOW 方法 在 常用 词 上 有 更 高 的 精 
确 性 ， 并 且 训 练 速度 快 很 多 。 


5. Word2vec 计算 技巧 














在 首次 发 布 之 后 ，Word2vec 模型 经 过 使 用 各 种 计算 改进 方案 使 性 能 得 到 了 提高 。 在 本 节 中 ， 
我 们 将 重点 介绍 3 个 改进 方案 。 

高 频 2-gram 

有 些 词 经 常 与 其 他 词组 合 出 现 ， 例 如 “Elvis” 通 党 后 面 跟 “Presley”( 这 两 个 词 分 别 是 猫 王 
的 名 字 与 姓氏 )， 从 而 构成 一 个 2-gram。 然 而 “Elvis” 与 “Presley” 共 现 频率 非常 高 ， 做 这 种 预 
测 并 没有 多 少 价值 。 为 了 提高 Word2vec HANI, Mikolov 团队 在 Word2vec 词汇 表 中 加 
人 了 一 些 2-gram 和 3-gram 作为 词 项 。 他 们 使 用 共 现 频率 来 区 分 应 该 被 认为 是 单个 词 项 的 2-gram、 
3-gram， 如 下 列 公式 所 示 : 





























count (w;,w;)-6 





score(w,,w;) = 
count(w;)xcount(w,) 


公式 6-5 2-gram 打分 函数 





O Mikolov 团队 发 布 的 文章 中 提供 了 更 多 详细 信息 。 
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如 果 w 和 Wi 经 计算 得 到 的 分 数 高 于 阔 值 5， 则 这 两 个 词 应 当 作为 词 项 对 被 包含 在 Word2vec 
词汇 表 中 。 大 家 会 注意 到 模型 的 词汇 表 中 包含 “New York” M “San _ Francisco” 等 形式 的 词 项 ， 
这 是 因为 Word2vec 将 频繁 出 现 的 2-gram 的 两 个 词 用 一 个 字符 ( 常用 下 划 线 “_”) 连接 起 来 ,这 
样 处 理 之 后 ， 这 些 2-gram 就 可 以 表示 为 单个 独 热 向 量 ， 而 不 再 是 两 个 单独 的 向 量 。 

词 对 的 另 一 个 影响 是 组 合 词 通常 与 其 中 的 单个 词 表 达 的 意思 完全 不 一 样 。 例 如 , 美国 职业 足 
球 大 联盟 (MLS ) 的 Portland Timbers ( 波 特 兰 伐木 者 队 ) 就 与 Portland ( 波 特 兰 ) 和 Timbers ( 木 
材 ) 这 两 个 词 的 意思 完全 不 一 样 。 通 过 在 Word2vec 模型 中 添加 经 常 出 现 的 2-gram ( 如 球 队 名 称 ), 
可 以 很 容易 地 将 这 些 词 对 用 独 热 向 量 进行 表示 ， 从 而 便于 进行 模型 训练 。 

高 频 词 条 降 采 样 

另 一 个 改进 原 算法 性 能 的 方法 是 高 频 词 条 降 采 样 。 像 “the” 或 “a” 这 样 的 常用 词 通常 不 包含 
重要 信息 ， 语 料 库 中 “the” 与 许多 名 词 都 共 现 ， 因 此 并 不 会 带 来 更 多 的 含义 ， 反 而 给 Word2vec 
语义 相似 性 表示 带 来 一 定 的 混淆 。 

重要 说 明 所 有 的 词 都 有 意义 ， 包 括 停 用 词 ， 在 训练 词 向 量 或 构建 词汇 表 时 不 应 该 完全 忽略 或 跳 过 


这 些 停 用 词 。 另 外 ， 由 于 词 向 量 经 常用 在 生成 模型 中 〈 如 本 书 中 Cole 模型 用 词 向 量 来 构造 句子 )， 
这 种 场景 下 ， 词 汇 表 中 就 必须 包含 停 用 词 和 其 他 常用 词 ， 并 且 人 允许 这 些 词 影响 其 相 邻 词 的 词 向 量 。 




































































为 了 减少 像 停 用 词 这 样 的 高 频 词 的 影响 , 可 以 在 训练 过 程 中 对 词 进行 与 其 出 现 频率 成 反比 的 采样 。 
其 效果 类 似 于 IDF 对 TF-IDF 向 量 的 影响 。 相 比 于 罕见 词 , 高 频 词 被 赋 以 对 向 量 更 小 的 影响 力 。Mikolov 
用 下 面 的 公式 来 确定 给 定 词 的 采样 概率 ,这 个 概率 决定 了 在 训练 过 程 中 是 否 将 该 词 包含 在 skip-gram F: 





公式 6-6 ”Mikolov Word2vec 论文 中 的 降 采 样 概率 


Word2vec C++ 版 中 ， 计 算 降 采样 概率 的 实现 与 论文 所 述 稍 有 些 不 同 ， 但 效果 是 一 样 的 : 








公式 6-7 Mikolov Word2vec 代码 中 的 降 采样 概率 





在 上 式 中 ，f (wi ) 表示 一 个 词 在 语料库 中 的 出 现 频率 ，t 表示 频率 阔 值 ， 超 出 这 个 阔 值 的 才 会 进行 
降 采 样 。 羡 值 取 决 于 语料库 规模 、 平 均 文档 长 度 和 文档 中 词 的 多 样 性 。 文 献 中 通常 使 用 105 ~ 10 的 值 。 

如 果 一 个 词 在 整个 语料库 中 出 现 了 10 次， 而 语料库 中 有 100 万 个 不 同 的 词 ， 将 降 采 样 阔 值 
设置 为 10*， 那 么 在 分 词 期 间 构建 n-gram 的 过 程 中 ， 这 个 词 留 在 某 个 n-gram 中 的 概率 是 68%, 
RIF 32% 的 概率 会 跳 过 它 。 

Mikolov 表明 ， 在 回答 类 比 问题 等 任务 中 ,使 用 降 采 样 提高 了 词 向 量 的 精确 率 。 
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负 采 样 

Mikolov 提出 的 最 后 一 个 技巧 是 负 采 样 。 当 一 个 训练 样本 〈 一 对 词 ) 输入 网 络 后 ， 会 引起 网 络 中 所 
有 权重 的 更 新 ， 这 样 会 改变 词汇 表 中 所 有 词 的 向 量 值 。 如 果 词 汇 表 规 模 达 到 十 亿 级 ， 为 一 个 大 型 的 独 热 
向 量 更 新 所 有 权重 将 会 变 得 极其 低 效 。 为 了 加 快 词 向 量 模型 的 训练 速度 ，Mikolov 采用 了 和 负 采 样 方法 。 

Mikolov 建议 只 在 输出 向 量 中 选取 少量 的 负 样本 进行 权重 更 新 ， 而 不 用 去 更 新 词 窗口 以 外 所 
有 其 他 词 的 权重 。 选 取 n 个 负 样 本 词 对 (目标 输出 词 之 外 的 词 )， 根 据 其 对 输出 的 贡献 来 更 新 对 
应 的 权重 。 通 过 这 种 方法 ， 可 以 极 大 地 减 小 计算 量 ， 而 且 对 训练 网 络 性 能 不 会 有 明显 影响 。 


注意 ”如果 是 在 一 个 小 型 语料库 上 来 训练 词 向 量 ,那么 可 以 使 用 5 ~20 个 样本 的 负 采 样 率 。 对 于 较 
大 型 的 语料库 和 词汇 表 ， 根据 Mikolov 团队 的 建议 ， 可 以 将 负 采 样 率 降低 到 2~5 个 样本 。 





















































6.2.3 ”如 何 使 用 gensim.word2vec 模块 


如 果 前 面 的 部 分 听 起 来 太 复杂 ,不 要 担心 。 很 多 公司 都 提供 了 预 训练 好 的 词 向 量 模 型 ,而 且 
有 很 多 针对 各 种 编程 语言 的 NLP 库 ， 可 以 让 大 家 方便 地 使 用 这 些 预 训练 模型 。 接 下 来 ， 我 们 将 
了 解 如 何 利 用 词 向 量 的 魔力 。 我 们 将 使 用 在 第 4 章 中 也 曾 提 到 过 的 流行 的 gensim 库 。 
如 果 大 家 已 经 安装 了 nlpia 包 ， 可 以 用 下 面 的 命令 来 下 载 一 个 预 训练 Word2vec 模型 ; 


>>> from nlpia.data.loaders import get_data 
>>> word_vectors = get_data('word2vec') 


如 果 这 个 命令 不 起 作用 , 或 者 大 家 喜欢 亲自 动手 的 话 , 那么 可 以 用 谷歌 搜索 在 谷歌 新 闻 文 档 
上 预 训练 的 Word2vec 模型 "。 下 载 谷歌 的 这 个 原始 二 进 制 格式 的 模型 后 ， 将 其 放 在 本 地 路 径 中 ， 
然后 用 下 面 的 gensim 包 来 进行 加 载 : 

>>> from gensim.models.keyedvectors import KeyedVectors 


>>> word_vectors = KeyedVectors.load_word2vec_format (\ 
'/path/to/GoogleNews-vectors-negative300.bin.gz', binary=True) 


词 向 量 可 能 会 占用 大 量 内 存 空间 ,如 果 可 用 内 存 有 限 , 或 者 不 想 等 待 好 几 分钟 来 加 载 词 向 量 
模型 ， 可 以 设置 limit 参数 ， 以 此 来 减少 加 载 到 内 存 中 的 词 的 数量 。 在 下 面 的 示例 中 ， 大 家 将 
从 谷歌 新 闻 语 料 库 中 加 载 最 常用 的 20 万 个 词 : 

>>> from gensim.models.keyedvectors import KeyedVectors 

>>> word_vectors = KeyedVectors.load_word2vec_format (\ 


'/path/to/GoogleNews-vectors-negative300.bin.gz', 
binary=True, limit=200000) 


但 是 请 注意 , 如 果 文 档 中 包含 了 未 加 载 词 向 量 的 那些 词 , 那么 这 个 只 有 有 限 词汇 量 的 词 向 量 
模型 将 影响 后 续 NLP 流水 线 处 理 的 效果 。 因 此 ， 最 好 只 在 开发 阶段 限制 词 向 量 模型 的 规模 。 对 







































































DO 参见 本 书 源 代 码 中 的 README 文件 。 
© 谷歌 将 Mikolov 训练 的 原始 模型 托管 在 谷歌 云 盘 (Google Drive ) 上 。 
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于 本 章 中 的 其 他 例子 ， 如 果 想 达到 本 书展 示 的 结果 ， 就 必须 使 用 完整 的 Word2vec 模型 。 

gensim.KeyedVectors.most similar() 方 法 提供 了 对 于 给 定 词 向 量 ， 查 找 最 近 的 相 
邻 词 的 有 效 方法 。 关 键 字 参数 positive 接受 一 个 待 求 和 的 向 量 列表 ， 类 似 于 本 章 开 头 足 球 队 
的 例子 。 同 样 ， 大 家 也 可 以 用 negative 参数 来 做 减法 ， 以 排除 不 相关 的 词 项 。 参 数 topn 用 
于 指定 返回 结果 中 相关 词 项 的 数量 。 

与 传统 的 同义词 词典 不 同 ，Word2vec 的 同 义 度 ( 相似 度 ) 是 连续 值 ， 代 表 向 量 距离 ， 这 是 
因为 Word2vec 本 身 是 一 个 连续 的 向 量 空间 模型 。Word2vec 的 高 维和 每 个 维度 的 连续 值 特性 使 其 
能 够 捕 提 到 给 定 词 的 全 部 含义 。 这 就 是 它 能 用 于 做 类 比 、 连 接 以 及 多 义 并 排 的 原因 : 

>>> word_vectors.most_similar(positive=['cooking', 'potatoes'], topn=5) 

[('cook', 0.6973530650138855), 

('oven_roasting', 0.6754530668258667), 
('Slow_cooker', 0.6742032170295715), 
('sweet_potatoes', 0.6600279808044434), 
('stir_fry_vegetables', 0.6548759341239929) ] 


>>> word_vectors.most_similar(positive=['germany', 'france'], topn=1) 
[('europe', 0.7222039699554443) ] 


词 向 量 模型 也 可 以 用 来 检测 不 相关 的 词 项 。gensim 库 提 供 了 一 个 名 为 doesnt match 的 方法 : 


>>> word_vectors.doesnt_match ("potatoes milk cake computer".split()) 
"computer' 


为 了 检测 列表 中 最 不 相关 的 词 项 ， 该 方法 将 返回 列表 中 与 其 他 词 项 距离 最 远 的 词 项 。 
如 果 大 家 想 完 成 计算 ( 例如, 著名 的 例子 king + woman - man = queen, 这 个 例子 起 初 让 Mikolov 
和 他 的 导师 兴奋 不 已 ), 可 以 通过 在 调用 方法 most_similar 中 添加 一 个 negative 参数 来 实现 : 


>>> word vectors.most similar (positive=['king', 'woman'], 
aides negative=['man'], topn=2) 
[('queen', 0.7118192315101624), ('monarch', 0.6189674139022827) ] 


gensim 库 支 持 两 个 词 项 之 间 的 相似 度 计算 , 如 果 要 比较 两 个 词 并 确定 它们 的 余弦 相似 度 , 可 
以 使 用 .similarity() 方 法 : 


>>> word_vectors.similarity('princess', 'queen') 
0.70705315983704509 


如 采 大 家 想 开 发 自己 的 函数 并 使 用 原始 的 词 向 量 ， 那 么 可 以 在 KeyedVector 实例 上 通过 
Python 的 方 括号 语法 ( [] ) 或 get () 方法 来 实现 ， 这 样 将 加 载 的 模型 对 象 视 为 一 个 字典 ， 而 目 
标 词 是 字典 中 的 一 个 键 , 返回 结果 是 一 个 数组 ,数组 中 的 每 个 浮 点 数 表示 向 量 的 一 个 维度 。 在 谷 
歌 的 词 向 量 模型 中 ， 返 回 的 numpy 数组 的 形状 为 x 300: 


>>> word_vectors['phone'] 
array ([-0.01446533, -0.12792969, -0.11572266;, -0.22167969, -0.07373047, 
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-0.05981445, -0.10009766, -0.06884766, 0.14941406, 0.10107422, 
-0.03076172, -0.03271484, -0.03125 , 70.10791016, 0.12158203, 
0.16015625, 0.19335938, 0.0065918 , -0.15429688, 0.03710938, 

















如 果 想 要 知道 所 有 这 些 数值 的 含义 ,也 是 可 以 做 到 的 ， 只 是 需要 费 点 儿 功 夫 。 大 家 需要 去 检 
查 一 些 同 义 词 ， 看 看 它们 在 这 300 个 数值 中 有 哪些 是 重复 的 。 或 者 就 像 在 本 章 开头 所 做 的 那样 
对 这 些 数值 进行 线性 组 合 ， 寻 找 其 中 构成 “placeness” “femaleness” 等 属性 的 维度 。 























6.2.4 生成 定制 化 词 向 量 表示 


在 某 些 情况 下 ， 需 要 创建 面向 特定 领域 的 词 向 量 模型 。 由 于 Mikolov 训练 Word2vec 模型 时 
使 用 的 是 2006 年 之 前 的 谷歌 新 闻 , 所 以 如 果 NLP 流水 线 处 理 的 文本 中 词 的 用 法 在 当时 的 谷歌 新 
闻 中 找 不 到 , 那么 可 以 通过 定制 化 词 向 量 来 提高 模型 的 精确 率 。 需 要 注意 的 是 ,定制 化 词 向 量 需 
要 大 量 的 文档 ， 就 像 之 前 谷歌 和 Mikolov 所 做 的 那样 。 另 外 ， 如 果 有 些 词 在 谷歌 新 闻 中 很 罕见 ， 
或 者 这 些 词 在 特定 领域 有 一 些 特定 用 法 , 如 医学 文本 或 成 绩 单 等 , 那么 面向 特定 领域 的 词 向 量 模 
型 也 可 以 提高 模型 精确 率 。 在 下 一 节 中 ， 我 们 将 展示 如 何 训练 定制 化 的 Word2vec 模型 。 

为 了 训练 特定 领域 的 Word2vec 模型 , 需要 再 次 用 到 gensim Æ, 另外 , 在 开始 训练 模型 之 前 ， 
还 需要 对 语料库 进行 预 处 理 ， 这 里 会 用 到 在 第 2 章 中 提 到 的 工具 。 


1， 巴 处理 阶 段 


首先 , 需要 把 文档 拆 分 为 句子 , 然后 将 句子 拆 分 为 词 条 。gensimword2vec 模型 接收 的 输入 是 
一 个 句子 列表 , 其 中 每 个 句子 都 已 经 切 分 为 词 条 。 这 样 可 以 确保 词 向 量 模型 不 会 学 习 到 相 邻 句子 
中 出 现 的 无 关 词 。 训 练 输入 应 该 类 似 于 以 下 结构 : 
>>> token list 
[ 
['to', 'provide', 'early', 'intervention/early', 'childhood', 'special', 
"education', 'services', 'to', 'eligible', 'children', 'and', 'their', 
'families'], 






















































































['essential', 'job', 'functions'], 
['participate', 'as', 'a', 'transdisciplinary', 'team', 'member', 'to', 
‘complete', 'educational', 'assessments', 'for'] 


ae 
可 以 应 用 在 第 2 章 中 学 习 的 各 种 将 句子 分 段 并 将 句子 切 分 为 词 条 的 策略 。NLIK 和 gensim 
中 可 以 用 经 过 精度 优化 的 莫 尔 斯 检测 器 。 一 旦 将 文档 转换 为 词 条 列表 的 列表 ( 每 个 列表 对 应 一 


























D 莫 尔 斯 检测 器 (Detector Morse ), 由 Kyle Gorman 和 OHSU 发 布 , 在 pypi 和 GitHub 网 站 上 均 可 获取 ， 是 一 

个 性 能 非常 好 (98% ) 的 句子 分 段 器 ， 在 《华尔街 日 报 》 多 年 的 文章 上 进行 的 预 训 练 。 所 以 ， 如 果 大 家 使 
的 语料库 中 包含 了 与 《华尔街 日 报 》 类 似 的 语言 ， 莫 尔 斯 检测 器 有 可 能 会 给 出 目前 可 能 的 最 高 精度 。 
如 果 有 大 量 的 领域 相关 的 句子 ， 那 么 也 可 以 在 自己 的 数据 集 上 训练 莫 尔 斯 检测 器 。 













































































178 第 6 章 词 向 量 推理 ( Word2vec ) 





个 句子 )， 接 下 来 就 可 以 进行 Word2vec 的 训练 了 。 
2. 训练 面向 特定 领域 的 Word2vec 模型 
首先 加 载 Word2vec 模块 : 


>>> from gensim.models.word2vec import Word2Vec 


需要 对 训练 过 程 进 行 一 些 设置 ， 如 代码 清单 6-2 所 示 。 


代码 清单 6-2 Word2vec 模型 训练 参数 





向 量 元 素 的 数量 ( 维度 ) 表示 Word2vec 模型 中 词 的 最 低 词 频 , 如 果 语 料 


词 向 量 库 较 小 ， 可 以 将 最 低 词 频 设置 得 小 一 点 ， 
>>> num features = 300 如 果 语 料 库 较 大 ， 可 以 适当 增 大 一 点 








>>> min word count = 3 


训练 使 用 的 CPU 核 数 ， 如 果 要 动态 设置 核 数 ， 
可 以 导入 multiprocessing, 设置 num_workers = 
multiprocessing.cpu_count() 

















现在 可 以 开始 训练 了 ， 如 代码 清单 6-3 所 示 。 


代码 清单 6-3 ”Word2vec 模型 实例 化 


>>> model = Word2Vec ( 
token_list, 
workers=num_ workers, 
size=num_features, 





min count=min word count, 
window=window_size, 
sample=subsampling) 


训练 过 程 比 较 耗 时 ， 具 体 训练 时 长 将 取决 于 语料库 的 规模 和 CPU 性 能 。 对 于 较 小 的 语料库 ， 
几 分 钟 就 能 完成 训练 。 但 是 如 果 想 要 训练 得 到 一 个 综合 的 词 模型 ,语料库 就 需要 包含 数 百 万 个 名 
子 , 语料库 中 每 个 词 的 不 同 用 法 都 需要 有 许多 对 应 的 样本 。 对 于 较 大 的 语料库 ， 如 维基 百科 语 料 
库 ， 训 练 时 间 会 更 长 ， 内 存 消耗 也 会 更 大 。 

Word2vec 模型 消耗 的 内 存 很 大 ， 但 是 其 中 只 有 隐藏 层 的 权重 矩阵 有 意义 。 一 旦 词 向 量 模型 
训练 完成 , 则 可 以 通过 冻结 模型 以 及 丢弃 不 必要 的 信息 来 减少 大 约 一 半 的 占用 内 存 。 下 面 的 命令 
将 丢弃 神经 网 络 中 不 需要 的 输出 权重 : 


>>> model.init sims (replace=True) 


init sims 方法 将 冻结 模型 ， 存 储 隐藏 层 的 权重 并 丢弃 用 于 预测 共 现 词 的 输出 权重 。 在 大 多 数 
Word2vec 应 用 中 不 会 用 到 这 个 输出 权重 。 不 过 ， 一 旦 丢弃 输出 层 的 权重 ， 以 后 将 无 法 进一步 训 
练 模型 了 。 
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可 以 使 用 以 下 命令 保存 已 训练 的 模型 ， 供 以 后 使 用 : 


>>> model_name = "my domain_specific_word2vec_model" 
>>> model.save (model _name) 


可 以 使 用 前 一 节 中 学 到 的 方法 来 测试 这 个 新 训练 的 模型 ， 如 代码 清单 6-4 所 示 。 





代码 清单 6-4 “加载 保存 的 Word2vec 模型 





>>> from gensim.models.word2vec import Word2Vec 

>>> model_name = "my domain_specific_word2vec_model" 
>>> model = Word2Vec.load(model_name) 

>>> model.most_similar('radiology') 


6.2.5 Word2vec 和 GloVe 


Word2vec 是 一 个 巨大 的 突破 ， 但 它 依 赖 于 必须 经 反 向 传播 来 训练 的 神经 网 络 模型 。 反 向 传 
播 在 效率 上 通常 不 如 使 用 梯度 下 降 法 直接 优化 的 代价 函数 。 由 Jeffrey Pennington 领导 的 斯 坦 福 大 
学 NLP 研究 团队 研究 了 Word2vec 的 工作 原理 , 并 从 中 找到 可 优化 的 代价 函数 。 他 们 计算 词 的 共 
现 次 数 并 记录 在 一 个 正方 形 和 矩阵 中 。 他 们 发 现 可 以 对 这 个 共 现 矩阵 进行 奇异 值 分 解 "， 分 解 得 到 
的 两 个 权重 矩阵 的 意义 与 Word2vec 产生 的 完全 相同 “。 关 键 点 在 于 用 同样 的 方法 对 共 现 矩阵 进行 
归 一 化 。 在 某 些 情况 下 ，Word2vec 模型 无 法 收敛 ， 而 斯 坦 福 大 学 的 研究 人 员 能 够 通过 他 们 提出 
的 SVD 方法 得 到 全 局 最 优 解 。 这 个 方法 是 对 词 共 现 的 全 局 向 量 (在 整个 语料库 中 的 共 现 ) 直接 
进行 优化 ， 因 此 命名 为 GloVe ( global vectors of word co-occurrences )。 

GloVe 可 以 产生 相当 于 Word2vec 输入 权重 和 矩阵 和 输出 权重 和 矩阵 的 和 矩阵， 其 生成 的 语言 模型 具 
有 与 Word2vec 相同 的 精确 率 ， 而 且 花 费 的 时 间 更 少 。Glove 通过 更 高 效 地 使 用 数据 来 加 速 训练 
进程 。 它 可 以 在 较 小 的 语料库 进行 训练 ， 并 仍然 能 够 收敛 。SVD 算法 已 经 改进 了 几 十 年 ， 所 以 
GloVe 在 调试 和 算法 优化 方面 很 有 优势 。 相 比 之 下 ,Word2vec 依赖 反 向 传播 来 更 新 表示 词 伐 人 的 
权重 ， 而 神经 网 络 的 反 向 传播 效率 低 于 GloVe 使 用 的 SVD 这 种 更 成 熟 的 优化 算法 。 

尽管 Word2vec 首先 普及 了 基于 词 向 量 进行 语义 推理 的 概念 ， 不 过 大 家 还 是 应 当 尽 量 使 用 
Glove 来 训练 新 的 词 向 量 模型 。 通 过 GloVe， 大 家 更 有 可 能 找到 词 向 量 表示 的 全 局 最 优 解 ， 从 而 
得 到 更 精确 的 结果 。 

GloVe 的 优点 如 下 : 

图 ”训练 过 程 更 快 ; 

E 更 有 效 地 利用 CPU、 内 存 ( 可 以 处 理 更 大 规模 的 文档 ); 

加 更 有 效 地 利用 数据 ( 对 小 型 语料库 有 帮助 ); 

























































































D 要 获得 更 多 SVD 细节 ， 可 参阅 第 $ 章 及 附录 Co 

@) GloVe: Global Vectors for Word Representation, 作者 是 Jeffrey Pennington , Richard Socher 和 Christopher D. 
Manning. 

3) gensim 上 Word2vec 与 GloVe 的 效果 对 比 。 
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m 在 相同 训练 次 数 的 情况 下 精确 率 更 高 。 


6.2.6 fastText 





Facebook 的 研究 人 员 将 Word2vec 的 概念 又 向 前 推进 了 一 步 "， 在 模型 训练 中 加 入 了 一 个 新 
花样 。 他 们 将 新 算法 命名 为 fastText, 与 Word2vec 中 预测 周围 词 不 同 , 该 算法 预测 周转 的 个 字 
符 。 例 如 ,“whisper” 将 生成 以 下 两 字符 的 gram 和 3 字符 的 gram: 

















wh, whi, hi, his, is, isp, sp, spe, pe, per, er 


fastText 为 每 个 n 字符 的 gram 训练 一 个 向 量 表 示 ， 其 中 包括 词 、 拼 错 的 词 、 词 片段 ， 甚 至 单 
个 字符 。 这 种 方法 比 原来 的 Word2vec 能 够 更 好 地 处 理 罕见 词 。 

Facebook 在 发 布 fastText 算法 的 同时 ， 也 发 布 了 294 种 语言 的 fastText 预 训练 模型 。 在 Facebook 
research 的 GitHub 页 面 上 ， 大 家 可 以 找到 从 阿布 哈 效 语 (Abkhazian ) 到 祖 鲁 语 (Zulu) 的 模型 ,模型 
其 至 还 包含 一 些 罕见 的 语言 ， 如 只 有 少数 德国 人 说 的 院 特 兰 弗 里 西亚 语 ( Saterland Frisian ) Facebook 
提供 的 fastText 预 训练 模型 只 在 维基 百科 语料库 上 进行 了 训练 ， 因 此 ， 不 同 语言 对 应 的 词汇 表 和 
模型 精确 率 会 有 所 不 同 。 


如 何 使 用 预 训练 fastText 模型 


fastText 的 用 法 与 谷歌 的 Word2vec 模型 一 样 。 在 fastText 模型 存储 库 中 下 载 对 应 语言 的 bin 
和 text 格式 的 模型 。 下 载 完 成 后 ， 解 压缩 二 进 制 文件 ， 然 后 用 以 下 代码 把 它 加 载 到 gensim 中 : 
如 果 大 家 使 用 gensim 3.2.0 之 前 的 版 本 ， 则 需要 将 这 


行 修改 为 : from gensim.models.wrappers.fasttext import 
FastText 





















































>>> from gensim.models.fasttext import FastText 
>>> ft model = FastText.load_fasttext_format (\ 


oe wot ne nt 
s imitar r y by 
E E bin 文件 和 vec XH H ae 
模型 加 载 完成 后 ， 就 可 以 和 8 














ensim 


中 的 其 他 词 向 量 模型 一 样 使 用 了 


gensim 提供 的 fastText API 的 功能 与 Word2vec 基本 一 致 。 在 本 章 前 面 学 习 的 所 有 方法 也 适 
用 于 fastText 模型 。 





























6.2.7 Word2vec 和 LSA 


现在 ， 大 家 可 能 想 知道 Word2vec 和 GloVe 词 向 量 与 第 4 章 中 的 LSA 主题 - 词 向 量 之 间 有 什 





® Bojanowski 等 人 的 “Enriching Word Vectors with Subword Information” o 
@ 详 见 标题 为 “fastText/pretrained-vectors.md at master” 的 网 页 。 
© en.wiki.zip 文件 大 小 为 9.6 GB- 
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么 区 别 。 尽 管 在 第 4 章 中 我 们 没有 对 LSA 主题 -文档 向 量 介绍 太 多 , 但 是 LSA 主题 - 词 向 量 也 为 
我 们 提供 了 词 向 量 表征 。LSA 主题 -文档 向 量 是 这 些 文档 中 所 有 词 的 主题 - 词 向 量 的 和 。 在 
Word2vec 中 ， 如 果 想 要 得 到 一 个 对 于 整 篇 文档 的 与 主题 -文档 向 量 类 似 的 词 向 量 , 需要 对 文档 中 
的 所 有 Word2vec 词 向 量 求 和 。 这 与 Doc2vec 文档 向 量 的 原理 十 分 接近 。 我 们 将 在 本 章 的 后 续 部 
分 作 详 细 介 绍 。 

如 果 主 题 向 量 的 LSA 矩阵 大 小 为 Noa * Nowy, M LSA 矩阵 中 的 行 就 是 LSA 词 向 量 。 这 些 
行 向 量 用 200 到 300 个 实 值 的 序列 来 表示 词 的 含义 ， 这 与 Word2vec 类 似 。LSA 主题 - 词 向 量 对 
于 发 现 相 关 词 项 和 不 相关 词 项 都 很 有 用 。 正 如 在 GloVe 中 讨论 过 的 ， 可 以 使 用 与 LSA 中 原理 完 
全 相同 的 SVD 算法 来 创建 Word2vec 向 量 。 但 是 通过 创建 交友 文档 的 滑动 窗口 ，Word2vec 可 以 
更 有 效 地 利用 文档 中 相同 数量 的 词 。 通过 该 方法 可 以 对 相同 的 词 重 复 使 用 5 次 ( 指 窗口 大 小 为 5 )。 

在 增 量 式 训练 或 在 线 式 训练 方面 的 表现 如 何 呢 ? LSA 和 Word2vec 算法 都 支持 向 语料库 添加 
新 文档 , 并 根据 新 文档 中 词 共 现 的 情况 来 调整 现 有 的 词 向 量 , 但 只 有 词汇 表 中 已 有 的 词 可 以 得 到 
更 新 。 如 果 要 在 模型 中 添加 新 词 ， 将 会 改变 词汇 表 的 大 小 ， 进 而 导致 词 对 应 的 独 热 向 量 发 生 改 变 ， 
这 样 的 话 就 需要 重新 开始 训练 。 

LSA 的 训练 速度 比 Word2vec 更 快 ， 而 且 在 长 文档 分 类 和 聚 类 方面 ，LSA 的 表现 更 好 。 

Word2vec 的 “杀手 级 应 用 ”是 它 推广 的 语义 推理 。LSA 主题 - 词 向 量 也 可 以 做 到 这 一 点 , 但 
通常 并 不 精确 。 如 果 想 要 得 到 接近 于 Word2vec 推理 的 效果 ， 我 们 必须 把 文档 分 成 句子 ， 然 后 只 
使 用 这 些 短 句 来 训练 LSA 模型 。 通 过 Word2vec, 我 们 可 以 得 到 类 似 于 “ 哈 利 波 特 + 大 学 = FE 
格 沃 兹 ”这 种 问题 的 管 案 "。 

LSA 的 优点 是 : 

mw ”训练 速度 快 ; 

E 长 文本 的 区 分 度 更 好 。 

Word2vec 和 GloVe 的 优点 是 : 

图 对 大 型 语料库 的 利用 更 有 效 ; 

加 在 回答 类 比 问题 等 用 词 推理 的 领域 更 精确 。 







































































































































































6.2.8 词 关 系 可 视 化 
语义 词 之 间 的 关系 非常 有 用 , 通过 可 视 化 可 以 得 到 一 些 有 趣 的 发 现 。 在 本 节 中 , 我 们 将 演示 
如 何在 二 维 平面 上 进行 词 向 量 可 视 化 的 步骤 。 


注意 ”如果 想 要 快速 地 对 词 向 量 模型 
视 化 功能 。 若 想 要 了 解 更 多 细节 ， 参 








进行 可 视 化 ， 我 们 强烈 建议 使 用 谷歌 的 TensorBoard 74] ik A 
见 13.6 节 。 





D 作为 Word2vec 模型 在 特定 领域 中 的 一 个 很 好 的 例子 ， 可 以 看 看 在 哈 利 波 特 、 指 环 王 等 数据 上 训练 出 的 
模型 。 
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首先 ， 我 们 从 谷歌 新 闻 语 料 库 的 Word2vec 模型 中 加 载 所 有 词 向 量 。 可 想 而 知 ， 这 个 语料库 
中 包含 了 很 多 关于 波 特 兰 、 俄 勒 风 以 及 许多 其 他 城市 和 州 的 名 字 。 大 家 可 以 使 用 nlpia 包 来 快速 
上 手 使 用 Word2vec 向 量 ， 如 代码 清单 6-5 所 示 。 





代码 清单 6-5 


import os 


nlpia 加 载 预 训 练 的 Word2vec 模型 


>>> from nlpia.loaders import get_data 
>>> from gensim.models.word2vec import KeyedVectors 
>>> wv = get_data('word2vec') 2 
A 预 训练 的 公 歌 新 闻 词 向 量 
ee ae 下 载 预 训练 的 谷歌 新 闻 词 向 量 到 


nlpia/src/nlpia/bigdata/GoogleNews- 


3000000 : : 
vectors-negative300.bin.gz 


5 


警告 ”谷歌 新 闻 的 Word2vec 模型 非常 庞大 : 包含 300 万 个 词 ， — 300 Mm HER. FEZ i] 
向 量 模型 需要 3 GB 可 用 内 存 。 如 果 可 用 内 存 有 限 或 者 只 想 快 速 加 载 一 些 最 常见 的 词 条 ， 参见 第 13 章 。 


现在 ，gensim 中 的 KeyedVectors 对 象 拥有 一 个 包含 300 万 个 Word2vec 向 量 的 表 。 我 们 
从 谷歌 的 Word2vec 模型 文件 中 加 载 这 些 向 量 ， 该 模型 文件 是 基于 谷歌 新 闻 文章 的 大 型 语料库 进 
行 训 练 的 ， 在 这 些 新 闻 报 道中 , 包含 了 大 量 关 于 州 和 城市 的 词 。 代 码 清 单 6-6 中 只 显示 了 词汇 表 
中 从 第 100 万 个 词 开始 的 几 个 词 。 











代码 清单 6-6 Word2vec 词 频 





>>> import pandas as pd 

>>> vocab pd.Series (wv.vocab) 

>>> vocab.iloc[1000000:100006] 

Illington Fund Vocab (count:447860, index:2552140) 


Illingworth 


Illingworth Halifax 


Illini 
IlliniBoard.c 
Illini_Bluffs 


Vocab (count:2905166, index:94834) 


Vocab (count:1984281, 


index:1015719) 


Vocab (count:2984391, index:15609) 


Vocab (count:1481047, 
Vocab (count:2636947, 


om 


index:1518953) 
index: 363053) 


主意 ， 复 合 词 和 常见 的 n-gram 由 下 划 线 (””) 连 





连接 在 一 起 。 另 外 ， 键 值 映射 中 的 值 是 一 个 





re eet 对 象 ， 它 不 仅 包含 了 一 个 词 对 应 的 Word2vec 向 量 的 索引 位 置 ， 还 包含 了 该 词 在 
谷歌 新 闻 语 料 库 中 出 现 的 次 数 。 
如 前 所 述 , 如 果 要 检索 某 个 词 或 n-gram 的 300 维 向 量 , 可 以 在 这 个 KeyedVectors WARE 





使 用 方 括号 来 执行 ._getitem (): 
>>> wv['Illini'] 
array([ 0.15625 2 0.18652344, 0233203125, 0.55859375, 0.03637695, 
-0.09375 , 70.05029297, 0.16796875, -0.0625 x 009912109, 
-0.0291748 , 0.39257812, 0.05395508, 0.35351562, -0.02270508, 











我 们 之 所 以 选择 从 第 100 万 个 词 开始 〈 按 词 的 字母 顺序 )， 是 因为 前 几 千 个 “ 词 ”都 是 标点 
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符号 序列 ， 如 ““#” 以 及 其 他 一 些 在 谷歌 新 闻 语 料 库 中 经 常 出 现 的 标点 符号 。 正 巧 “Illlini” 出 现 
在 我 们 挑选 的 这 个 词 列 表 中 "。 我 们 看 看 “llini” 向 量 与 “Illinois” 向 量 的 距离 有 多 近 ， 如 代码 
清单 6-7 所 示 。 


代码 清单 6-7 


>>> import numpy as np 


Illinois 5 Illini 的 距离 





>>> np.linalg.norm(wv['Illinois'] - wv['Illini']) js bes 
3.3653798 | 欧 几 里 得 距离 
>>> cos_similarity = np.dot(wv['Illinois'], wv['Illini']) / ( 
np.linalg.norm(wv['Illinois']) *\ 
np.linalg.norm(wv['Illini'])) 





AGRE EVI ACR 


>>> cos_similarity 


0.5501352 
>>> 1 - cos_similarity 
0.4498648 余弦 距离 


这 些 距 离 值 表示 “Illinois” 和 “Ilini” 这 两 个 词 在 含义 上 只 有 一 定 程 度 的 相近 。 

ee 它们 之 间 的 距离 将 它们 绘制 在 二 
维 语义 图 上 。 那 么 如 何在 这 个 KeyedVectors 对 象 的 Word2vec 词汇 表 中 找到 所 有 的 城市 和 州 
WE? 大 家 可 以 像 之 前 那样 ， 利 用 余弦 距离 求 出 所 有 与 “ 州 ”或 “城市 ”相近 的 向 量 ， 但 是 这 样 就 
需要 遍历 所 有 300 万 个 词 及 其 对 应 的 词 向 量 。 我们 也 可 以 换个 方法 ， 即 加 载 男 一 个 数据 集 ， 其 中 
包含 世界 各 地 的 城市 和 州 ( 地 区 ) 的 列表 ， 如 代码 清单 6-8 所 示 。 


代码 清单 6-8 ”美国 城市 数据 


>>> from nlpia.data.loaders import get data 

















>>> cities = get_data('cities') 

>>> cities.head(1).T 

geonameid 3039154 
name El Tarter 
asciiname El Tarter 
alternatenames Ehl Tarter,?? ?????? 
latitude 42.5795 
longitude 1.65362 
feature_class P 
feature_code PPL 
country_code AD 
cc2 NaN 
adminl_code 02 
admin2_code NaN 
admin3_code NaN 
admin4 code NaN 
population 1052 
elevation NaN 











GD “llini” 这 个 词 指 的 是 


群 人 ,通常 是 足球 运动 员 和 球迷 ， 而 不 是 一 个 像 “Tllinois” 











伊利 诺 伊 人 队 ” 的 大 部 分 粉丝 住 在 那里 )。 


这 样 的 地 区 (“REAR 
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dem 172} 
timezone Europe/Andorra 
modification_date 2012-11-03 





这 个 来 自 Geocities 的 数据 集 包 含 了 许多 信息 , 包括 纬度 、 经 度 和 人 口 。 大 家 可 以 用 它 来 进 
行 一 些 有 趣 的 可 视 化 ， 也 可 以 用 来 对 比 地 理 距离 和 Word2vec 距离 。 不 过 现在 我 们 只 是 将 
Word2vec 距离 映射 到 二 维 平 面 上 ,看 看 它 是 什么 样子 的 。 目 前 我 们 仅 关注 美国 ， 如 代码 清单 6-9 
所 示 。 


代码 清单 6-9 ”美国 州 数据 


>>> us = cities[(cities.country_code == 'US') &\ 
(cities.adminl_code.notnull())].copy() 
>>> states = pd.read_csv(\ 
"http://www. fonz.net/blog/wp-content/uploads/2008/04/states.csv') 
>>> states = dict(zip(states.Abbreviation, states.State) ) 


>>> us['city'] = us.name.copy() 
>>> us['st'] = us.adminl_code.copy() 
>>> us['state'] = us.st.map(states) 
>>> us[us.columns[-3:]].head() 

city st state 
geonameid 
4046255 Bay Minette AL Alabama 
4046274 Edna TX Texas 
4046319 Bayou La Batre AL Alabama 
4046332 Henderson TX Texas 
4046430 Natalia TX Texas 


现在 ， 除 了 缩写 ， 还 为 每 个 城市 提供 了 一 个 完整 的 州 名 。 我 们 检查 看 看 Word2vec 词汇 表 中 
有 哪些 州 名 和 城市 名 : 


>>> vocab pd.np.concatenate([us.city, us.st, us.state]) 

>>> vocab np.array([word for word in vocab if word in wv.wv]) 
>>> vocab[:5] 

array(['Edna', 'Henderson', 'Natalia', 'Yorktown', 'Brighton']) 


我 们 发 现 ， 即 使 只 看 美国 的 城市 ,， 也 会 有 很 多 同名 的 大 城市 ， 如 俄勒冈 州 的 波 特 兰 市 和 缅 因 
州 的 波 特 兰 市 。 所 以 需要 把 城市 所 在 州 的 属性 融入 城市 向 量 中 。 在 Word2vec 中 ， 可 以 通过 向 量 
相 加 来 对 词 的 含义 进行 组 合 。 这 就 是 面向 向 量 推理 的 神奇 之 处 。 大 家 可 以 将 州 的 Word2vec 词 向 
量 加 到 城市 词 向 量 上 , 然后 将 得 到 的 新 问 量 放 到 一 个 大 的 DataFrame 中 。 这 里 的 州 名 可 以 用 全 称 
或 者 简称 (无论 在 Word2vec 词汇 表 中 的 是 哪个 )， 如 代码 清单 6-10 所 示 。 
































代码 清单 6-10 ”通过 州 词 向 量 增强 的 城市 词 向 量 





>>> city_plus_state = [] 
>>> for c, state, st in zip(us.city, us.state, us.st): 
if c not in vocab: 
continue 
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row = [] 
if state in vocab: 
row.extend(wv[c] + wv[state] ) 
else: 
row.extend(wv[c] + wv[st]) 
Ze city_plus_state.append (row) 
>>> us_300D = pd.DataFrame(city_plus_state) 


根据 语料库 的 内 容 , 词 关 系 可 以 代表 不 同 的 属性 ,例如 地 理 位 置 上 接近 或 者 经 济 、 文 化 上 相 
似 等 。 但 是 这 种 关系 在 很 大 程度 上 依赖 于 训练 语料库 : 它们 直接 反映 语料库 。 


词 向 量 是 有 偏见 的 ! 

词 向 量 根据 训练 语料库 来 学 习 词 之 间 的 关系 。 如 果 语 料 库 是 关于 金融 的 ， 那 么 “bank ”的 词 向 量 将 

主要 与 存款 业务 相关 。 如 果 语 料 库 是 关于 地 质 学 的 ， 那 么 “pank” 的 词 向 量 将 被 训练 为 与 河流 和 小 溪 相 

关 。 如 果 语 料 库 的 内 容 主要 是 关于 母系 社会 的 ， 如 女 银 行家 以 及 在 河 里 洗衣 服 的 男人 们 ， 那 么 我 们 得 到 

的 词 向 量 将 会 带 有 性 别 偏见 。 
下 面 的 例子 展示 了 在 谷歌 新 闻 报 道上 训练 得 到 的 词 向 量 模 型 的 性 别 偏见 。 如 果 大 家 计算 “男人 ”和 

“护士 ”之 间 的 距离 ， 并 将 其 与 “女人 ”和 “护士 ”之 间 的 距离 进行 比较 ， 就 会 看 到 这 种 偏见 : 
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>>> word_model.distance('man', 'nurse') 
0.7453 
>>> word_model.distance('woman', 'nurse') 
0.5586 


要 在 带 有 偏见 的 文档 中 训练 模型 ， 如 何 去 识 别 和 消除 这 样 的 偏见 对 NLP 从 业者 来 说 是 一 个 挑战 。 


训练 语料库 中 的 新 闻 文 章 有 一 个 共同 的 组 成 部 分 ， 即 城市 的 语义 相似 性 。 文 章 中 语义 相似 
的 位 置 看 起 来 是 可 互 换 的 ， 因 此 词 向 量 模型 会 学 到 这 种 相似 性 。 如 果 使 用 不 同 的 语料库 训练 ， 
那么 词 关 系 可 能 会 有 所 不 同 。 在 这 个 新 闻 语 料 库 中 ,一 些 大 小 和 文化 相似 的 城市 尽管 在 地 理 位 
置 上 相距 其 远 , 但 在 语义 上 却 紧 密 地 聚合 在 一 起 ， 如 圣迭戈 和 圣何塞 ,或 者 一 些 度假 胜地 如 村 
香山 和 雷诺 等 。 

幸运 的 是 , 我 们 可 以 使 用 传统 代数 方法 将 城市 名 向 量 加 到 州 名 和 州 名 缩写 的 向 量 中 。 正 如 在 
第 4 章 中 所 述 ， 大 家 可 以 使 用 主 成 分 分 析 (PCA ) 等 工具 , 将 向 量 维 数 从 原来 的 300 维 压 缩 到 人 
类 可 理解 的 二 维 表示 。 通 过 PCA 使 大 家 能 够 看 到 这 些 300 维 的 向 量 在 二 维 图 中 的 投影 或 者 “ 阴 
Be”, 最 重要 的 是 , PCA 算法 能 够 让 向 量 之 间 尽 可 能 地 分 开 , 以 确保 这 个 投影 是 数据 的 最 佳 视图 。 
PCA 就 像 一 个 好 的 摄影 师 ， 它 从 各 种 可 能 的 角度 对 数据 进行 观察 ， 然 后 拍 出 最 佳 照片 。 大 家 其 
至 不 必 在 “城市 名 + MA + 州 名 缩写 ”向 量 求 和 运算 后 对 向 量 的 长 度 进行 归 一 化 ， 因 为 PCA 
会 自行 处 理 这 个 问题 。 

我 们 在 nlpia 包 中 保存 了 这 些 增强 的 城市 词 向 量 ， 以 便 可 以 在 应 用 程序 中 加 载 使 用 。 在 代码 
清单 6-11 中 ， 我 们 使 用 PCA 将 其 投影 到 二 维 图 上 。 
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代码 清单 6-11 ”美国 城市 气泡 图 














用 PCA 生成 用 于 可 视 化 的 二 维 向 


量 , 并 保留 原来 的 300 AE Word2vec 
>>> from sklearn.decomposition import PCA 向 量 , 便于 做 向 量 推 理 


>>> pca = PCA(n_components=2) 
>>> us_300D = get_data('cities_us_wordvectors') 


>>> us_2D = pca.fit_transform(us_300D.iloc[:, :300]) 
这 个 DataFrame 的 最 后 一 列 包 含 了 城市 名 , 在 


DataFrame 的 索引 中 也 同样 保存 了 一 份 
图 6-8 展示 了 所 有 这 些 300 维 美国 城市 词 向 量 的 二 维 投影 。 
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图 6-8 谷歌 新 闻 300 维 词 向 量 通过 PCA 在 二 维 地 图 上 的 投影 





注意 ”低语 义 距离 ( 接近 零 的 距离 值 ) 表示 词 相似 度 高 。 语 义 距 离 ， 或 “意义 ”距离 ， 是 由 训练 文档 中 
相 邻 出 现 的 词 决 定 的 。 如 果 两 个 词 经 常用 于 相似 的 上 下 文中 (与 附近 相似 的 词 一 起 使 用 )， 则 它们 的 
Word2vec 词 向 量 在 词 向 量 空间 中 也 会 比较 接近 。 例如， 旧金山 和 加 利 福 尼 亚 之 间 的 向 量 距 离 就 很 近 ， 
因为 它们 经 常 在 句子 中 相 邻 出 现 ， 而 且 它 们 附近 的 词 的 分 布 也 是 相似 的 。 两 个 词 之 间 的 向 量 距 离 越 大 ， 
它们 之 间 共 享 上 下 文 和 共享 含义 的 可 能 性 就 越 小 (在 语义 上 是 不 同 的 ) 例如 汽车 和 花生 。 


如 果 大 家 想 查看 图 6-8 所 示 的 城市 地 图 ,或 者 想 亲 自动 手绘 制 词 向 量 分 布 图 , 代码 清单 6-12 
中 展示 了 如 何 进行 操作 。 我 们 为 Plotly 构建 了 离线 绘图 API 的 包装 器 ， 以 便 归 一 化 处 理 DataFrame 
数据 。Plotly 包装 器 的 输入 是 一 个 DataFrame， 其 中 的 行 表示 样本 ， 列 表示 待 绘制 的 特征 ， 可 以 
是 离散 特征 ( 如 时 区 )， 也 可 以 是 连续 实 值 特征 〈 如 城市 人 口 )。 由 此 产生 的 图 是 交互 式 的 ， 对 于 
各 种 机 器 学 习 数 据 的 探索 都 很 有 有 用， 特别 是 词 和 文档 这 种 复杂 事物 的 向 量 表示 。 





















































代码 清单 6-12 ”美国 城市 词 向 量 气泡 图 





>>> import seaborn 
>>> from matplotlib import pyplot as plt 
>>> from nlpia.plots import offline_plotly_scatter_bubble 
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>>> df = get_data('cities_us_wordvectors_pca2_meta') 

>>> html = offline_plotly_scatter_bubble ( 
df.sort_values('population', ascending=False) [:350].copy()\ 

-sort_values('population'), 

filename='plotly_scatter_bubble.html', 
x='x', y='y', 
size_col='population', text_col='name', category_col='timezone', 
xscale=None, yscale=None, # 'log' or None 

eee layout={}, marker={'sizeref': 3000} 

{'sizemode': 'area', 'sizeref': 3000} 


为 了 生成 300 维 词 向 量 的 二 维 表示 ， 我 们 需要 使 用 降 维 技术 。 这 里 我 们 使 用 PCA， 通 过 减 小 
输入 向 量 中 包含 的 信息 涵盖 范围 ， 可 以 减少 维度 压缩 过 程 中 的 信息 损失 ， 所 以 就 像 在 计算 TF-IDF 
BY BOW 向 量 时 限制 语料库 的 领域 或 主题 一 样 ， 我 们 把 词 向 量 限制 在 与 城市 相关 的 概念 上 。 

对 于 包含 更 多 信息 内 容 的 不 同 混合 向 量 ， 大 家 可 能 需要 一 个 非 线性 咎 入 算法 ， 如 t-SNE。 我 
们 将 在 后 面 的 章节 中 讨论 fSNE 和 一 些 其 他 的 神经 网 络 技术 。 在 本 章 中 掌握 词 向 量 敬 入 算法 对 于 
后 面 理解 t-SNE 会 更 有 意义 。 



































6.2.9 非 自 然 词 


像 Word2vec 这 样 的 词 租 入 模型 不 仅 对 英文 词 有 用 ， 对 于 任何 具有 语义 的 符号 序列 ， 只 要 符 
号 的 序列 和 邻近 性 能 够 表示 其 意义 ,， 词 能 入 都 能 发 挥 作用 。 大 家 可 能 已 经 猜 到 了 , 词 租 入 也 适用 
于 英语 以 外 的 语言 。 

词 谍 入 也 适用 于 象形 语言 ， 如 传统 的 中 国 汉 字 和 日 本 汉字 或 者 埃及 坟墓 中 神秘 的 象形 文字 。 
词 般 入 和 基于 向 量 的 推理 其 至 适用 于 一 些 故意 混淆 了 词 含义 的 语言 , 大 家 可 以 用 词 向 量 对 大 量 的 
“秘密 ”消息 进行 基于 向 量 的 推理 ， 例 如 由 儿童 发 明 的 “儿童 黑 话 ”(Pig Latin), 或 上 古 罗 马 皇 帝 
发 明 的 饥 搬 密 码 (Caesar cipher )， 如 RO13 或 替换 密码 (substitution cipher )， 都 很 容易 受到 基于 
向 量 的 Word2vec 推理 的 攻击 。 大 家 甚至 不 需要 解码 环 (如 图 6-9 所 示 )， 只 需要 一 个 大 的 消息 集 
合 或 n-gram 集合 ， 然 后 就 可 以 通过 Word2vec 词 能 入 来 查找 词语 符号 的 共 现 情况 。 


























图 6-9 解码 环 ( Æ: Hubert Berberich (HubiB), CipherDisk2000， 标 记 为 公共 
领域 ， 要 获得 更 多 细节 ， 参 见 Wikimedia Commons; 中 : Cory Doctorow， 
Cryptowedding-ring 2; 右 : Sobebunny, Captain-midnight-decoder ) 
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Word2vec 甚至 可 以 用 来 从 非 自 然 的 词 或 ID 号 (如 大 学 课程 号 (CS-101 )、 像 Koala E7270 
或 Galaga Pro 一 样 的 产品 型 号 ， 甚 至 序列 号 、 电 话 号 码 和 邮编 ) 中 收集 信息 和 关系 。 要 获得 关 
于 像 这 样 的 ID 号 之 间 关 系 的 最 有 用 的 信息 ， 需 要 包含 这 些 ID 号 的 各 种 句子 。 如 果 ID 号 包含 
有 意义 的 符号 位 置 结构 ， 将 有 助 于 把 这 些 ID 号 切 分 为 最 小 的 语义 包 (例如 自然 语言 中 的 词 或 


音节 ) 





















































6.2.10 ”利用 Doc2vec 计算 文档 相似 度 





Word2vec 的 概念 也 可 以 扩展 到 句子 、 段 落 或 整个 文档 。 根 据 前 面 的 词 预 测 下 一 个 词 的 想法 
可 以 扩展 到 训练 段落 或 文档 的 向 量 ( 如 图 6-10 所 示 )， 这 个 模型 不 仅 考虑 前 面 的 词 ， 还 考虑 了 段 
落 或 文档 的 向 量 表示 , 将 其 作为 额外 的 输入 来 进行 预测 。 随 着 时 间 的 推移 , 算法 将 从 训练 集中 学 
习 文档 或 段落 的 向 量 表 示 。 


预测 



















































































图 6-10 Doc2vec 训练 使 用 额外 的 文档 向 量 作为 输入 





训练 结束 后 ,如 何 为 未 知 文档 生成 文档 向 量 呢 ? 在 推理 阶段 ,该 算法 将 更 多 的 文档 向 量 添加 
到 文档 矩阵 中 , 并 根据 冻结 的 词 向 量 和 矩阵 来 计算 添加 的 向 量 及 其 权重 。 通 过 推断 文档 向 量 ， 大 家 
就 能 获得 整个 文档 的 语义 表示 。 

通过 在 词 预测 中 加 入 额外 的 文档 或 段落 向 量 ， 扩 展 了 Word2vec 的 概念 ， 现 在 大 家 可 以 在 各 
种 任务 中 使 用 训练 好 的 文档 向 量 ， 例 如 在 语料库 中 查找 相似 的 文档 。 






































如 何 训练 文档 向 量 
与 训练 词 向 量 类 似 ， 可 以 使 用 gensim 包 来 训练 文档 向 量 ， 如 代码 清单 6-13 所 示 。 
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代码 清单 6-13 ”训练 自己 的 文档 向 量 和 词 向 量 














gensim 利用 Python 多 线程 模块 在 多 核 
CPU 上 进行 并 行 训练 ， 这 行 代码 仅 统 计 CPU 
的 核 数 ， 便 于 后 面 设 定 线程 数量 











gensim Doc2vec 模块 为 语 
料 库 中 的 每 篇 文档 包含 了 | | gensim 的 simple_preprocess 单 
词 向 量 戏 入 和 文档 向 量 元 是 一 个 粗 分 词 器 ,会 去 除 单 
字母 词 和 所 有 标点 符号 , 第 2 
章 中 介绍 的 其 他 的 分 词 器 也 















































>>> import multiprocessing 
>>> num cores = multiprocessing.cpu_count () 














都 可 以 在 这 里 使 用 
>>> from gensim.models.doc2vec import TaggedDocument,\ <«—— 
Doc2Vec 
>>> from gensim.utils import simple _preprocess < 一 


提供 一 个 逐条 遍历 文档 字 
>>> corpus = ['This is the first document ...',\ 符 串 的 对 象 


‘another document ...'] 


>>> training_corpus = [] 


R A 
>>> for i, text in enumerate(corpus): MEAP reader 24231 建议 预先 分 配 一 人 numpy 数 











Cs tagged doc = TaggedDocument (\ H, 而 个 是 一 个 庞大 的 python 列表 。 如 果 语 料 库 
ree et (hay 过 大 无 法 加 载 到 内 存 , 我们 也 可 以 以 流 的 方式 从 
training_corpus.append (tagged doc) 硬盘 或 数据 库 中 进行 加 载 








>>> model = Doc2Vec(size=100, min_count=2, 
workers=num_ cores, iter=10) 

>>> model.build_vocab (training_corpus) 

>>> model.train(training_corpus, total_examples=model.corpus_count, 
epochs=model.iter) 


gensim 提供 了 一 个 数据 结构 , 文 

















模型 开始 训练 之 前 需 















































持 用 字符 哩 或 整数 标签 来 表示 ae a i 
文档 的 类 别 标签 、 关 键 词 或 其 他 后 结束 训练 


与 文档 关联 的 信息 





实例 化 一 个 Doc2vec 对 象 ， 滑 动 窗口 大 小 为 10 个 词 ， 每 个 
词 和 文档 向 量 100 4E ( 比 300 维 的 谷歌 新 闻 Word2vec 问 
量 小 得 多 ) min count 是 词汇 表 中 文档 频率 的 最 小 值 











提示 “如 果 内 存 不 足 ， 并 且 在 预先 知道 文档 数量 (语料库 对 象 不 是 迭代 器 或 生成 器 ) 的 情况 下 ， 可 
Ww training corpus 使 用 预 分 配 的 numpy 数组 而 不 是 Python 列表 : 


training_corpus = np.empty(len(corpus), dtype=object) ; 
. training_corpus[i] = .. 


— H. Doc2vec 模型 训练 完成 , 大 家 便 可 以 在 已 实例 化 的 训练 好 的 模型 对 象 上 调用 infer vector 
方法 ,来 对 新 的 未 见 过 的 文档 进行 文档 向 量 推理 : 


>>> model.infer_vector(simple_preprocess (\ 
'This is a completely unseen document'), steps=10) 


Doc2vec 在 做 新 向 量 推理 时 需要 
一 个 训练 步骤 ,在 本 例 中 , 通过 
10 步 (或 迭代 ) 来 更 新 向 量 


通过 这 几 个 步骤, 大 家 可 以 快速 训练 整个 语料库 的 文档 向 量 ， 并 查找 相似 文件 。 具 体 做 法 是 
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对 语料库 中 的 每 篇 文档 生成 一 个 文档 向 量 , 然后 计算 各 个 文档 向 量 之 间 的 余弦 距离 。 另 一 个 常见 
的 任务 是 将 语料库 的 文档 向 量 通过 类 似 于 大 均值 的 方法 进行 聚 类 ， 以 此 来 创建 文档 分 类 器 。 























6.3 小结 


图 大 家 已 经 学 习 了 如 何 利 用 词 向 量 和 面向 向 量 的 推理 来 解决 一 些 奇妙 的 问题 ， 如 类 比 问题 
和 词 之 间 的 异 义 关系 。 

BE 大 家 可 以 用 自己 应 用 程序 中 的 词 来 训练 Word2vec 和 其 他 词 向 量 舱 和 人 入， 以便 大 家 的 NLP 
流水 线 不 会 被 大 多 数 Word2vec 预 训练 模型 使 用 的 谷歌 新 闻 词 中 的 固有 含义 “污染 ”。 

m 使 用 gensim 来 对 词 向 量 进 行 探索 、 可 视 化 ， 以 及 构建 自己 的 词 向 量 表 。 

E 词 问 量 在 地 理 位 置 上 的 PCA 投影 ， 如 美国 城市 名 , 揭示 出 地 理 上 相距 遥远 的 城市 在 文化 
上 的 相近 。 

加 ”如 果 大 家 使 用 n-gram 语法 的 句子 边界 ,并 且 有 效 地 建立 词 对 进行 训练 ， 就 能 大 大 提高 潜 
在 的 语义 分 析 词 嵌入 的 精确 性 ( 见 第 4 FF )。 
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本 章 主 要 内 容 

E 神经 网 络 在 NLP 中 的 应 用 

图 探索 词 模式 的 含义 

图 构建 CNN 模型 

图 利用 神经 网 络 向 量化 自然 语言 文本 
加 训练 CNN 模型 

国 文本 情感 分 类 


语言 的 真正 力量 不 在 于 文字 本 身 ， 而 在 于 文字 的 间隔 、 顺 序 以 及 词 的 各 种 组 合 。 有 时 候 ， 语 言 的 
意义 隐藏 在 文字 的 背后 ,蕴含 在 形成 词 的 特定 组 合 的 意图 和 情感 中 。 无 论 是 人 类 还 是 机 器 "， 理 解 隐 蕊 









































在 文字 背后 的 意图 ， 对 于 同 理 心 强 、 情 商 高 的 倾听 者 或 自然 语言 的 阅读 考 而 言 ， 都 是 一 项 重要 的 技能 。 





就 像 在 思想 和 观念 中 ， 正 是 词 之 间 的 联系 创造 了 语言 的 深度 、 信 息 度 和 复杂 度 。 除 了 理解 单个 词 的 含 
义 ， 词 之 间 还 有 各 种 各 样 巧妙 的 组 合 方式 ， 有 没有 一 些 比 n-gram 匹配 更 灵活 的 方法 ， 可 以 用 来 衡量 这 


些 组 合 词 的 意义 呢 ? 我 们 如 何 从 一 个 词 序列 中 得 到 语义 和 情感 











隐 性 语义 信息 ， 从 而 利用 它 来 做 一 


些 事情 呢 ? 更 进一步 地 说 ， 我 们 如 何 才能 将 这 种 隐藏 的 语义 传达 给 冰冷 的 计算 机 来 生成 文本 呢 ? 
“机 顺 生 成 的 文本 ”这 个 短语 甚至 让 人 联想 到 由 空洞 的 金属 声音 发 出 的 一 个 个 词 块 。 机 天 也 
































许 能 让 人 明白 它 表达 的 意思 ,但 仅 此 而 已 。 其 中 缺少 的 是 什么 呢 ? 


























是 交流 过 程 中 人 们 变化 的 语调 、 


流利 度 以 及 即使 是 在 非常 短暂 的 交谈 中 ,人 们 也 期 待 表露 出 来 的 个 性 特点 , 这 些微 妙 之 处 存在 于 











字里行间 以 及 词 的 构建 模式 中 。 人 们 在 交流 时 , 会 在 他 们 的 文字 下 














1 演讲 中 蕴含 各 种 语言 模式 。 伟 








大 的 作家 和 演讲 家 会 积极 运用 这 些 模式 来 制造 非常 好 的 效果 。 人 们 天 生 具 有 识别 这 些 模 式 的 能 
力 ， 这 种 识别 甚至 是 在 无 意识 的 状态 下 进行 的 ， 而 这 也 正 是 机 需 生 成 的 文本 听 起 来 很 粳 糕 的 原因 , 











因为 它们 不 具备 这 些 模 式 。 不 过 大 家 可 以 从 人 类 生成 的 文本 中 控 








昌 这 些 模 式 ， 并 将 其 赋 给 机 器 。 








在 过 去 的 几 年 里 ， 围 绕 神 经 网 络 的 研究 迅速 开展 起 来 ， 同 时 





D 国际 促进 者 协会 手册 。 





4 现 了 大 量 可 用 的 开源 工具 , 神 
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经 网 络 在 大 型 数据 集中 发 现 模式 的 能 力 得 到 大 幅 提 升 ， 并 使 NLP 领域 发 生 了 巨大 的 转变 。 感 知 
机 迅速 转变 为 前 馈 网 络 〈 一 个 多 层 感 知 机 )， 并 由 此 衍生 出 各 种 变 体 : 卷 积 神经 网 络 和 循环 神经 
网 络 ， 并 发 展 出 各 种 应 用 于 大 型 数据 集 上 模式 挖掘 的 更 为 有 效 和 准确 的 工具 。 

正如 大 家 看 到 的 Word2Vec 那样 ， 神 经 网 络 给 NLP 领域 带 来 了 一 个 全 新 的 方法 。 虽 然 设 计 神 经 
网 络 最 初 的 目的 是 作为 一 个 学 习 量化 输入 的 机 器 ， 这 个 领域 已 经 从 只 能 处 理 分 类 、 回 归 问 题 ( 主题 
分 析 、 情 绪 分 析 ) 发 展 到 能 够 基于 以 前 未 见 过 的 输入 来 生成 新 文本 : 将 短语 翻译 为 男 一 种 语言 ， 对 
未 见 过 的 问题 生成 回复 ( 聊天 机 器 人 )， 甚 至 能 够 生成 基于 特定 作者 风格 的 新 文本 。 

完全 理解 神经 网 络 的 数学 原理 对 于 使 用 本 章 介绍 的 工具 并 不 重要 , 不 过 这 确实 有 助 于 加 强 我 
们 对 神经 网 络 内 部 如 何 运作 的 认识 。 如 果 大 家 理解 了 第 5 章 中 的 例子 和 相关 解释 , 就 会 对 如 何 使 
用 神经 网 络 有 一 个 更 为 直观 的 认识 。 另 外 , 还 可 以 简化 神经 网 络 结构 ( 层 数 或 者 神经 元 数量 ) 来 
改进 效果 , 这 也 有 助 于 大 家 了 解 神经 网 络 如 何 赋予 聊天 机 器 人 深度 。 神 经 网 络 让 聊天 机 器 人 成 为 
一 个 很 好 的 、 从 表面 上 看 不 怎么 健谈 的 倾听 者 。 
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词 的 性 质 和 奥妙 与 词 之 间 的 关系 密切 相关 。 这 种 关系 至 少 有 两 种 表达 方式 。 
(1) 词 序 一 一 下 面 两 个 句子 含义 完全 不 一 样 : 


The dog chased the cat. 
The cat chased the dog. 


(2) 词 的 邻近 度 (proximity) 一 一 下 面 句 子 的 “shone” 指 的 是 句子 男 一 端的 “hull”: 


The ship's hull, despite years at sea, millions of tons of cargo, and two mid-sea 
collisions, shone like new. 


这 些 关 系 的 模式 ( 以 及 词 本 身 存 在 的 模式 ) 可 以 从 两 个 方面 来 表示 : 空间 和 时 间 。 两 者 的 区 
别 主 要 是 : 对 于 前 者 , 要 像 在 书页 上 的 句子 那样 来 处 理 一 一 在 文字 的 位 置 上 寻找 关系 ; 对 于 后 者 ， 
要 像 说 话 那样 来 处 理 一 一 词 和 字母 变 成 了 时 间 序 列 数 据 。 这 两 者 是 密切 相关 的 , 但 是 它们 标志 
神经 网 络 处 理 方式 的 一 个 关键 区 别 。 空间 数据 通常 通过 固定 宽度 的 窗口 来 查看 ,而 时 间 序 列 则 可 
以 对 于 未 知 的 时 间 无 限 延 展 。 

基本 的 前 馈 网 络 ( 多 层 感 知 机 ) 能 够 从 数据 中 提取 模式 ， 这些 模式 来 自 与 权重 相关 的 输入 片段 ， 
但 它 无 法 捕获 到 词 条 在 空间 或 时 间 上 的 关系 。 不 过 前 馈 神 经 网 络 只 是 神经 网 络 结构 的 开端 部 分 ， 目 
前 ， 自 然 语 言 处 理 领 域 中 两 个 最 重要 的 模型 是 卷 积 神经 网 络 和 循环 神经 网 络 ， 以 及 它们 的 各 种 变 体 。 

在 图 7-1 中 ， 对 神经 网 络 输入 层 传人 3 个 词 条 。 每 个 输入 层 神 经 元 都 与 隐藏 层 神经 元 全 连接 ， 
并 各 自 具 有 不 同 的 权重 。 

提示 “怎样 将 词 条 传 入 网 络 呢 ?9 本 章 使 用 的 两 种 主要 方法 是 前 面 章节 中 使 用 的 独 热 编码 和 词 向 

量 。 大 家 可 以 对 输入 进行 独 热 编码 一 在 向 量 中 我 们 考虑 的 所 有 可 能 的 词 位 置 上 都 标记 为 0， 对 

正在 编码 的 词 的 位 置 标记 为 1。 或 者 ， 也 可 以 使 用 第 6 章 中 的 训练 好 的 词 向 量 。 总 之 ， 需 要 将 词 
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表示 为 数字 以 便 进 行 数学 运算 。 






输入 向 量 


输出 层 输出 值 


图 7-1 全 连接 神经 网 络 
如 果 将 这 些 词 条 的 顺序 从 “See Jim run” 改 为 “run See Jim” 并 将 其 传人 网 络 中 ,不 出 所 料 ， 











会 得 到 一 个 不 同 的 结果 。 因 此 请 记 住 , 每 个 输入 位 置 与 每 个 隐藏 层 神经 元 都 有 一 个 特定 的 对 应 权 
E (x 与 wi 相连 ,x 与 w 相连， 以 此 类 推 )。 

因为 词 条 同时 出 现在 一 个 样本 中 的 不 同位 置 , 所 以 前 馈 网 络 可 以 学 习 词 条 之 间 的 一 些 特定 关 
系 ， 但 是 大 家 可 以 很 容易 看 出 ， 对 于 5 个 、10 个 或 50 个 词 条 的 长 句子 ( 每 个 位 置 上 都 包含 所 有 
可 能 的 词 对 、 三 元 组 等 )， 这 会 成 为 一 个 玉 手 的 问题 。 幸 运 的 是 ， 我 们 还 有 其 他 可 选 方案 。 

















12 工具 包 


Python 是 神经 网 络 工 具 包 最 丰富 的 语言 之 一 。 虽 然 很 多 主要 的 参与 者 ( 如 谷歌 和 Facebook ) 
已 经 转移 到 较 低级 别 的 语言 以 便于 密集 计算 的 实现 ， 不 过 依然 留 下 了 用 Python 在 早期 模型 上 投 
人 大 量 资 源 进行 开发 的 痕 记 。 两 个 主要 的 神经 网 络 架 构 分 别 是 Theano 和 TensorFlow。 这 两 者 的 
底层 计算 深度 依赖 C 语言 ， 不 过 它们 都 提供 了 强大 的 Python API。Facebook 基于 Lua 语言 开发 
了 Torch， 它 在 Python 里 面 也 有 一 个 对 应 的 API 是 PyTorch。 这 些 框架 都 是 高 度 抽象 的 工具 集 ， 
适用 于 从 头 构建 模型 。Python 社区 开发 了 一 些 第 三 方 库 来 简化 这 些 底层 架构 的 使 用 。Lasagne 
( Theano ) 和 Skflow ( TensorFlow ) 很 受 欢迎 ,我 们 选择 使 用 Keras， 它 在 API 的 友好 性 和 功能 性 
方面 比较 均衡 。Keras 可 以 使 用 TensorFlow 或 Theano 作为 后 端 ， 这 两 者 各 有 利 浆 ， 我 们 将 使 用 
TensorFlow 后 端 来 做 演示 ， 男 外 我 们 还 需要 h5py 包 来 保存 已 训练 模型 的 内 部 状态 。 

Keras 默认 以 TensorFlow 作为 后 端 ， 运 行 时 第 一 行 输 出 就 会 提醒 大 家 目前 使 用 的 是 哪个 后 端 。 大 
家 可 以 通过 在 环境 变量 或 脚本 中 修改 配置 文件 来 更 换 后 端 。Keras 的 说 明文 档 非常 清晰 完整 ， 我 们 强 
烈 建议 大 家 在 上 面 多 花 点 儿 时 间 。 不 过 我 们 在 这 里 也 提供 一 个 快速 概述 : Sequential () 是 一 个 神经 
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网 络 的 抽象 类 , 用 于 访问 Keras 的 基本 API, compile 方法 主要 用 于 构建 底层 权重 及 它们 之 间 的 
相互 关系 ,而 fit 方法 计算 训练 过 程 中 产生 的 误差 并 实施 最 重要 的 应 用 反 向 传播 过 程 。epochs、 
batch size f optimizer 是 需要 调 优 的 超 参 数 ， 从 某 种 意义 上 来 说 ， 调 参 也 是 一 门 艺术 。 

遗憾 的 是 ,对 于 神经 网 络 的 设计 和 调 优 , 没有 一 个 放 之 四 海 而 皆 准 的 方法 。 对 于 特定 的 应 用 
应 选择 哪 种 适合 的 框架 , 需要 大 家 根据 自己 的 经 验 和 直觉 来 判断 。 不 过 如 果 能 找到 和 当前 的 应 用 
相似 的 实现 案例 , 那么 完全 可 以 使 用 这 个 框架 并 对 实现 进行 调整 来 满足 大 家 的 需求 。 神 经 网 络 框 
架 或 者 所 有 这 些 花 哨 的 东西 并 没有 什么 可 怕 的 ,现在 我 们 把 话题 转 回 到 基于 图 像 处 理 的 自然 语言 
处 理 。 为 什么 还 有 图 像 ? 稍微 耐心 学 习 一 下 就 会 明白 了 。 
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卷 积 神经 网 络 (convolutional neural net, CNN ) 得 名 于 在 数据 样本 上 用 滑动 窗口 (或 卷 积 ) 
的 概念 。 

卷 积 在 数学 中 应 用 很 广泛 ， 通 常 与 时 间 序 列 数 据 相 关 。 在 本 章 中 ， 可 以 不 用 关注 其 中 的 高 阶 
概念 ， 只 需要 知道 它 是 用 一 个 可 视 化 盒子 在 一 个 区 域内 滑动 (如 图 7-2 所 示 )。 大 家 将 从 图 像 上 的 
滑动 窗口 概念 入 手 , 然后 扩展 到 文本 上 的 滑动 窗口 。 总 体 来 说 ， 就 是 在 较 大 的 数据 块 上 设置 一 个 
滑动 窗口 ， 每 次 滑动 时 只 能 看 到 窗口 范围 内 的 数据 。 
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图 7-2 卷 积 窗口 函数 
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7.3.1 构建 块 


卷 积 神经 网 络 最 早出 现在 图 像 处 理 和 图 像 识 别 领域 , 它 能 够 捕捉 每 个 样本 中 数据 点 之 间 的 空 
间 关 系 ， 也 就 能 识别 出 图 像 中 的 是 猫 还 是 狗 在 驾驶 推土机 。 
卷 积 网 络 (convolutional net )， 也 称 为 convnet ( 这 个 多 出 来 的 n 很 难 发 音 ), 
不 像 传统 的 前 馈 网 络 那样 对 每 个 元 素 ( 图 像 中 的 每 个 像素 ) 分 配 权重 ， 而 是 
定义 了 一 组 在 图 像 上 移动 的 过 滤器 ( filter， 也 称 为 卷 积 核 、 滤 波 器 或 者 特征 
检测 器 )。 这 就 是 卷 积 ! te. 
一 














在 图 像 识别 中 , 每 个 数据 点 的 元 素 可 以 是 黑白 图 像 中 的 每 个 像素 点 , 取 m 
值 是 1 (on) 或 0 (off). 上 = 

也 可 以 是 灰 度 图 像 中 每 个 像素 的 强度 ( 如 图 7-3 和 图 7-4 所 示 )， 或 者 “图 7-3 BARER 
彩色 图 像 中 每 个 像素 的 每 个 颜色 通道 的 强度 。 





























图 7-4 ”电线 杆 图 像 的 像素 值 











卷 积 核 会 在 输入 样本 中 【在 这 个 例子 中 ， 就 是 图 像 的 像素 值 ) 进行 卷 积 或 滑动 。 我 们 先 暂 
停 一 下 ， 讲 讲 滑动 是 什么 意思 。 在 窗口 “移动 ”的 时 候 我 们 不 会 做 任何 事情 ， 大 家 可 以 把 它 看 
作 是 一 系列 的 快照 ， 数 据 通 过 这 个 窗口 的 时 候 ， 会 做 一 些 处 理 , 窗口 向 下 滑动 一 点 ， 就 再 做 一 
次 处 理 。 


提示 “” 正 是 这 个 滑动 /快照 使 卷 积 神经 网 络 具 有 高 度 的 并 行 性 。 对 给 定数 据 样本 的 每 个 快照 都 可 以 独 
立 于 其 他 数据 样本 进行 计算 ， 后 面 的 快照 也 不 需要 等 待 上 一 个 快照。 





我 们 谈论 的 这 些 卷 积 核 有 多 大 呢 ? 卷 积 核 窗口 大 小 的 参数 由 模型 构建 器 选择 , 并 日 高 度 依赖 
数据 内 容 。 不 过 其 中 还 是 有 一 些 共性 的 。 在 图 像 数据 中 ， 大 家 通常 会 看 到 窗口 大 小 为 3 x 3(3, 3) 
像素 。 在 本 章 后 面 回 到 NLP 上 时 我 们 会 更 详细 地 讲解 窗口 大 小 的 选择 。 
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7.3.2 DK 


注意 , 在 滑动 阶段 , 移动 的 距离 是 一 个 参数 ,一 般 不 会 超过 卷 积 核 宽度 ， 每 个 快照 通常 都 与 
相 邻 快照 有 重 县 的 部 分 。 

每 个 卷 积 “ 走 ”的 距离 称 为 步 长 ， 通 常设 置 为 1。 只 移动 一 个 像素 ( 或 其 他 小 于 卷 积 核 宽 度 
的 距离 ) 将 使 进入 卷 积 核 的 不 同 输入 在 一 个 位 置 和 下 一 个 位 置 之 间 出 现 重 至 。 如 果 由 于 步 长 太 大 
而 使 卷 积 核 之 间 没 有 重 羡 ， 就 会 失去 像素 (在 NLP 中 是 词 条 ) 与 相 邻 像素 之 间 的 “模糊 ”效果 。 

这 种 重合 有 一 些 有 趣 的 特性 ， 特 别 是 在 查看 卷 积 核 如 何 随 时 间 变 化 的 时 候 ， 这 些 特 性 非常 
明显 。 



































7.3.3” 卷 积 核 的 组 成 


到 目前 为 止 , 我 们 已 经 描述 了 数据 上 的 滑动 窗口 ， 以 及 通过 这 个 窗口 来 观察 数据 , 但 还 没有 
介绍 如 何 处 理 观察 到 的 数据 。 

卷 积 核 由 两 部 分 组 成 : 

m 一 组 权重 ( 就 像 第 5 章 中 给 神经 元 分 配 的 权重 ); 

加 一 个 激活 函数 。 

如 前 所 述 ， 卷 积 核 通常 是 3 x 3 ( 也 有 其 他 大 小 和 形状 )。 

提示 卷 积 核 神经 元 与 普通 的 隐藏 层 神经 元 十 分 相似 ,但 是 在 扫描 输入 样本 的 整个 过 程 中 ,每 个 卷 

积 核 的 权重 是 固定 的 ， 在 整个 图 像 中 所 有 卷 积 核 的 权重 都 一 样 。 卷 积 神经 网 络 中 的 每 个 卷 积 核 都 是 

独一无二 的 ， 但 是 在 图 像 快照 中 每 个 卷 积 核 的 元 素 都 是 固定 的 。 


当 卷 积 核 在 图 像 上 滑动 时 ， 每 次 前 进 一 个 步 长 ， 得 到 当前 覆盖 像素 的 快照 ,然后 将 这 些 像 素 
的 值 与 卷 积 核 中 对 应 位 置 的 权重 相 乘 。 

假设 大 家 用 的 是 3 x 3 卷 积 核 ， 从 左上 角 开 始 ,， 第 一 个 像素 (0, 0) 乘 以 卷 积 核 第 一 个 位 置 (0, 0) 
上 的 权重 ， 第 二 个 像素 (0, 1) 乘 以 位 置 (0, 1) 上 的 权重 ， 以 此 类 推 。 

然后 对 像素 和 权重 ( 对 应 位 置 ) 的 乘积 求 和 ， 并 传递 到 激活 函数 中 ( 如 图 7-5 所 示 )， 通 常 
选择 ReLU 函数 (线性 修正 单元 ) 一 一 我 们 待 会 再 讨论 这 个 问题 。 

在 图 7-5 和 图 7-6 中 ,x 是 位 置 i 上 的 像素 值 ，z 是 ReLU 激活 函数 的 输出 z_ 0 = max (sum (x * 
w) ,0) 或 z0= max(x; x w)), 0)。 该 激活 函数 的 输出 将 被 记录 在 输出 图 像 中 的 一 个 位 置 上 。 卷 积 核 
滑动 一 个 步 长 ， 处 理 下 一 个 快照 ， 并 将 输出 值 放 在 上 一 个 输出 值 的 旁边 (如 图 7-6 所 示 )。 

在 一 个 层 中 有 多 个 这 样 的 卷 积 核 , 当 它 们 在 整个 图 像 上 进行 卷 积 时 ,会 各 自 创 建 一 个 新 的 “图 
像 ” 一 一 一 个 被 “过 滤 ” 后 的 图 像 。 假设 有 个 卷 积 核 ， 在 经 过 这 个 处 理 之 后 ,将 得 到 nn 个 经 过 
过 滤 的 新 图 像 。 

我 们 一 会 儿 再 来 看 看 对 这 个 新 图 像 的 处 理 。 
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输出 层 





成 对 相 乘 








输入 数据 (图像) 
图 7-5 ” 卷 积 神经 网 络 步骤 












卷 积 核 











输入 数据 图像 

















图 7-6 7R 
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7.3.4 填充 


然而 ， 在 图 像 的 边缘 会 发 生 一 些 有 趣 的 事情 。 如 果 大 家 从 输入 图 像 的 左上 角 开 始 一 个 3 x 3 
的 卷 积 核 ， 每 次 移动 一 个 像素 ， 当 卷 积 核 的 最 右 侧 边 缘 到 达 输 入 图 像 的 最 右 侧 边缘 时 停止 ,那么 
输出 的 “图 像 ”将 比 原 图 像 窄 两 个 像素 。 

Keras 提供 了 处 理 这 个 问题 的 工具 。 第 一 个 策略 是 忽略 输出 维度 变 小 的 问题 。 在 Keras 中 ， 
可 以 设置 参数 padding = 'valid', 使 用 这 种 方法 时 ,需要 注意 下 一 层 输 入 的 维度 。 这 种 策 
略 的 缺点 是 重 和 至 位 置 上 的 内 部 数据 点 被 多 次 传递 到 每 个 卷 积 核 上 , 原始 输入 的 边缘 数据 将 被 欠 采 
样 。 在 比较 大 的 图 像 上 ， 这 可 能 不 是 问题 ， 但 是 如 果 把 这 个 概念 应 用 到 Twitter 数据 上 ， 例 如 ， 
在 一 个 10 个 单词 的 数据 集 上 进行 从 采样 ， 则 可 能 会 极 大 地 改变 输出 结果 。 

另 一 个 策略 称 为 填充 《padding )， 即 向 输入 数据 的 外 部 边缘 添加 足够 多 的 数据 ， 使 边缘 上 的 
第 一 个 数据 点 可 以 被 视 为 内 部 数据 点 进行 处 理 。 这 种 策略 的 缺点 是 向 输入 数据 中 添加 了 可 能 不 相 
关 的 内 容 ， 导致 偏离 了 输出 结果 。 大 家 不 需要 专门 去 寻找 生成 虚假 数据 的 模式 , 可 以 用 几 种 不 同 
的 方法 进行 填充 以 尽量 减少 不 良 影响 。 具 体 做 法 参见 代码 清单 7-1。 
































代码 清单 7-1 Keras 中 一 个 卷 积 层 的 神经 网 络 





>>> from keras.models import Sequential 
>>> from keras.layers import Conv1D 


>>> model.add(Conv1D(filters=16, 
kernel _size=3, 


>>> model = Sequential () 'same' 和 'valid' 都 是 可 选项 
padding='same', | input_shape 仍然 是 输入 数据 
activation='relu', 修改 前 的 形状 ， 填 充 会 在 后 




















strides=1, 台 进 行 
input_shape=(100, 300))) 











稍 后 将 详细 介绍 实现 细节 。 需要 对 这 些 数 据 位 多 加 注意 , 大 家 使 用 的 工具 中 已 经 对 这 些 问题 
进行 了 很 好 的 处 理 。 

还 有 一 些 策略 ， 例 如 在 预 处 理 过 程 中 通过 模拟 已 存在 的 边缘 数据 点 来 预测 要 填充 位 置 上 的 
值 。 不 过 这 种 策略 危险 性 较 大 ，NLP 应 用 中 一 般 不 会 使 用 。 
卷 积 流水 线 

现在 有 个 卷 积 核 和 个 新 图 像 , 接 下 来 怎么 处 理 呢 ?和 大 多 数 神经 网 络 应 用 一 样 , 我 们 从 
一 个 已 标注 的 数据 集 开 始 , 任务 目标 也 类 似 : 预测 一 个 给 定 新 图 像 的 标签 。 最 简单 的 方法 是 将 每 
个 过 滤 后 的 图 像 串 起 来 并 输入 到 前 馈 层 ， 然 后 像 第 5 章 那 样 来 处 理 。 

提示 “大 家 可 以 将 这 些 经 过 过 滤 的 图 像 传递 到 第 二 个 卷 积 层 ， 它 也 有 一 组 卷 积 核 。 在 实践 中 ， 这 是 

最 常见 的 架构 ， 稍 后 我 们 会 再 详细 介绍 。 多 层 卷 积 网 络 对 抽象 层 的 学 习 路 径 一 般 是 : 首先 是 边缘 ， 

然后 是 形状 /颜色 ， 最 后 是 含义 。 

不 管 大 家 在 网 络 中 添加 了 多 少 层 ( 卷 积 层 或 其 他 层 )， 一旦 得 到 一 个 最 终 输出 ， 就 可 以 计算 
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出 误差 并 通过 网 络 进行 反 向 传播 该 误差 。 

因为 激活 函数 是 可 微 的 , 所 以 可 以 像 之 前 一 样 反 向 传播 并 更 新 各 个 卷 积 核 的 权重 。 然 后 网 络 
会 学 习 到 需要 什么 样 的 卷 积 核 才能 为 给 定 的 输入 获得 正确 的 输出 。 

大 家 可 以 将 此 过 程 视 为 神经 网 络 在 学 习 检测 和 提取 信息 , 以 便 让 后 面 的 层 能 更 容易 地 进行 处 理 。 














7.3.5 学 习 


就 像 所 有 神经 网 络 一 样 ， 卷 积 核 本 身 会 以 初始 化 为 接近 零 的 随机 值 的 权重 开始 。 那么 输出 的 
“图 像 ” 怎 样 才 不 会 是 噪声 呢 ? 在 最 初 的 几 轮 和 途 代 训练 中 ， 它 确实 只 是 噪声 。 

但 是 大 家 构建 的 分 类 器 会 根据 各 个 输入 数据 ， 从 期 望 标签 中 获得 一 定 的 误差 值 ， 并 通过 激活 函 
数 将 输入 数据 反 向 传播 给 卷 积 核 。 对 于 误差 值 的 反 向 传播 ， 我 们 还 需要 计算 误差 对 输入 权重 的 导数 。 

当 卷 积 层 刚 出 现时 ， 它 用 的 是 上 层 梯度 对 输入 权重 的 导数 。 这 个 计算 和 正常 的 反 向 传播 类 似 ， 
对 于 给 定 训练 样本 ， 卷 积 核 权 重 会 在 多 个 位 置 上 输出 对 应 的 结果 。 

梯度 对 卷 积 核 权重 的 导数 的 具体 计算 超出 了 本 书 的 范围 , 不 过 可 以 简单 介绍 一 下 , 对 于 一 个 
给 定 卷 积 核 的 权重 , 梯度 是 前 向 传播 过 程 中 卷 积 的 每 个 位 置 上 梯度 的 和 。 这 是 一 个 相当 复杂 的 公 
式 ， 两 个 求 和 及 多 个 释 加 式 如 下 : 

































































公式 7-1 卷 积 核 权 值 的 梯度 之 和 


这 一 概念 与 常规 的 前 馈 网 络 基本 相同 , 即 计 算出 每 个 特定 权重 对 系统 总 体 误差 的 贡献 , 然后 
再 来 决定 如 何 更 好 地 调整 权重 , 使 其 能 够 在 后 面 的 训练 样本 上 尽量 减 小 误差 。 这 些 细节 对 于 理解 
卷 积 神经 网 络 在 自然 语言 处 理 中 的 应 用 并 不 是 特别 重要 , 但 还 是 希望 大 家 对 如 何 调整 神经 网 络 结 
构 有 直观 的 认识 ， 在 本 章 后 面 的 内 容 中 会 构建 这 些 示例 。 
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WE, 之 前 我 们 一 直 在 讨论 图 像 。 但 是 我 们 的 目标 是 语言 ， 还 记得 吗 ” 现在 我 们 看 看 一 些 需 
要 训练 的 词 。 大 家 可 以 用 在 第 6 章 中 已 经 学 过 的 词 向 量 (也 称 为 词 谋 入 ) 而 不 是 图 像 的 像素 值 作 
为 网 络 的 输入 ， 将 卷 积 神经 网 络 应 用 到 自然 语言 处 理 上 。 

由 于 词 之 间 的 相对 垂直 关系 可 以 是 任意 的 ， 只 取决 于 页 面 宽度 ， 因 此 关联 信息 主要 体现 在 
“水 平 ”方向 上 。 


提示 “同样 的 概念 也 适用 于 先 从 上 到 下 然后 从 右 到 左 阅读 的 语言 ， 如 日 语 (不 少 日 语文 学 书籍 中 采 
用 从 上 到 下 的 排版 顺序 ) 对 于 这 些 语言 ， 大 家 要 处 理 的 是 “垂直 ”关系 而 不 是 “水 平 ” 关 系 。 


对 于 图 像 这 种 二 维 输入 使 用 的 是 二 维 卷 积 ,而 对 于 句子 这 种 一 维 输入 , 大 家 主要 关注 的 是 词 
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条 在 一 维 空 间 维度 的 关系 ’ 所 以 做 的 是 一 维 卷 积 No aE dog went to the bodega together. 
这 里 的 卷 积 核 也 可 以 是 一 维 的 , 例如, 图 7-7 RARE 

使 用 1 x 3 的 滑动 窗口 。 The cat and dog went to the bodega together. 
如 果 将 文本 想象 为 图 像 ， 则 “第 二 个 ”维度 是 词 向 量 的 全 "cenn 














The cat|and dog wentlto the bodega together. 


图 7-7 一 维 卷 积 








K, 一般 是 100 维 到 500 维 ， 就 像 一 个 真实 的 图 像 。 大 家 只 需 
要 关心 卷 积 核 的 “宽度 ”。 在 图 7-7 中 ， 卷 积 核 的 宽度 是 3 个 词 
条 。 请 注意 ， 每 个 单词 的 词 条 ( 或 之 后 的 字符 词 条 ) 在 句子 “图 像 ”中 都 相当 于 一 个 “像素 ”。 
































提示 “一 维 卷 积 核 这 个 词 可 能 会 误导 大 家 。 如 图 7-8 所 示 ， 词 本 身 的 向 量 表示 是 以 “向 下 ”扩展 的 
方式 来 表示 ， 卷 积 核 在 移动 过 程 中 会 覆盖 到 词 向 量 这 个 维度 的 整个 长 度 。 当 我 们 说 一 维 卷 积 的 维 数 
时 ， 指 的 是 短语 的 “宽度 "。 在 二 维 卷 积 中 ， 如 图 像 ， 将 从 左 到 右 从 上 到 下 地 滑动 来 扫描 输入 图 像 ， 
因此 称 之 为 二 维 。 在 这 里 ,我 们 只 是 在 从 左 到 右 这 一 个 维度 上 滑动 。 


The cat and dog went to the bodega together 


a 
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卷 积 核 


















聚合 及 激活 函数 


z[0] = activation_function(sum(w * x[:, i:i+3] 


a 





输出 层 (对 于 给 定 的 卷 积 核 ) Zo 21 22 
































图 7-8 —#ERR ASR 
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如 前 所 述 , 卷 积 这 个 术语 实际 上 是 一 种 简写 。 如 何 滑 动 窗口 对 模型 本 身 没 有 影响 。 各 个 位 置 
的 数据 决定 了 运算 结果 。 计 算 “ 快 照 ”的 顺序 并 不 重要 ， 只 需要 保证 按照 与 窗口 在 输入 上 的 位 置 
相同 的 方式 来 重 构 输 出 即 可 。 

在 前 向 传播 过 程 中 ， 对 于 给 定 的 输入 样本 ， 卷 积 核 中 的 权重 值 不 变 ， 这 意味 着 对 于 一 个 给 定 卷 
积 核 , 可 以 并 行 地 处 理 其 所 有 “快照 ”并 同时 合成 输出 “图 像 ”。 这 就 是 卷 积 神经 网 络 速度 快 的 秘诀 。 

卷 积 神经 网 络 的 处 理 速度 , 加 上 忽略 特征 位 置 的 能 力 , 是 研究 人 员 一 直 使 用 卷 积 方法 来 提取 
特征 的 原因 。 




















7.4.1 Keras 实现 : 准备 数据 


我 们 通过 Keras 文档 提供 的 卷 积 神经 网 络 分 类 器 示例 来 看 一 下 Python 中 的 卷 积 。 它 设计 了 一 
个 一 维 卷 积 网 络 来 分 类 IMDB 电影 评论 数据 集 。 

每 个 数据 点 都 预先 标记 为 0( 消极 情感 ) 或 1 ( 积极 情感 ) 在 代码 清单 7-2 中 ,我 们 将 把 示 
例 IMDB 电影 评论 数据 集 蔡 换 为 原始 文本 的 数据 集 , 这 样 我 们 也 可 以 亲自 预 处 理 文本 。 然后 我 们 
会 看 到 是 否 可 以 使 用 这 个 已 训练 的 网 络 来 分 类 它 从 未 见 过 的 文本 。 




















代码 清单 7-2 导入 Keras 中 的 卷 积 工具 











Keras 处 理 这 一 内 容 的 大 部 分 , 不 过 处 理 填充 输入 数 ; n 
它 更 善于 处 理 numpy 数组 据 的 辅助 模块 基础 的 Keras 神经 网 络 模型 
>>> import numpy as np 





>>> from keras.preprocessing import sequence 模型 中 常用 的 层 对 象 
>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Dropout, Activation 
>>> from keras.layers import ConvlD, GlobalMaxPooling1D y = 
: 卷 积 层 和 池 化 

















首先 从 斯 坦 福 大 学 人 工 智能 系 下 载 原 始 数据 集 "。 这 是 为 2011 年 的 论文 “Learning Word 
Vectors for Sentiment Analysis”( 学 习 词 向 量 情感 分 析 ) 准备 的 数据 集 。 下 载 完成 后 ， 将 其 解压 出 
来 并 看 看 里 面 的 内 容 。 大 家 只 需要 用 训练 目录 train/ 就 可 以 了 ， 不 过 里 面 也 有 其 他 一 些 “toy” 数 
据 ， 可 以 随意 查看 。 

训练 目录 中 的 评论 数据 被 分 成 文件 夹 pos 和 neg 中 的 两 类 文本 文件 ,需要 在 Python 中 以 适当 
的 标签 先 读 取 出 来 然后 打 乱 顺序 , 使 样本 不 会 全 部 是 正 例 或 负 例 。 如 果 用 以 标签 排序 的 数据 进行 
训练 ,会 使 训练 结果 偏向 于 后 面 出 现 的 内 容 ， 尤其 是 在 使 用 某 些 超 参数 ( 如 momentum ) 的 情况 
下 更 是 如 此 。 具 体 做 法 参见 代码 清单 7-3。 














代码 清单 7-3 ”文档 加 载 预 处 理 





>>> import glob 
>>> import os 





D 读者 可 在 本 书 下 载 资源 中 查看 。 一 一 译 者 注 
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>>> from random import shuffle 


>>> def pre process data (filepath): 


we 


This is dependent on your training data source but we will 
try to generalize it as best as possible. 


we 


positive_path = os.path.join(filepath, 'pos') 
negative_path = os.path.join(filepath, 'neg') 
pos_label = 1 

neg_label = 0 

dataset = [] 


for filename in glob.glob(os.path.join(positive_path, '*.txt')): 
with open (filename, 'r') as f: 
dataset.append((pos_label, f.read())) 


for filename in glob.glob(os.path.join(negative_path, '*.txt"')): 
with open (filename, 'r') as f: 
dataset.append((neg_label, f.read())) 


shuffle (dataset) 


return dataset 


第 一 个 示例 文档 如 下 所 示 。 由 于 样本 经 过 重新 排序 处 理 , 大 家 看 到 的 文档 内 容 可 能 会 有 所 不 
同 , 不 过 这 个 没有 影响 。 元 组 的 第 一 个 元 素 是 情感 的 目标 值 : 1 表示 积极 情感 ，0 表示 消极 情感 : 

>>> dataset = pre process data('<path to your downloaded file>/aclimdb/train') 

>>> dataset[0] 

(1, 'I, as a teenager really enjoyed this movie! Mary Kate and Ashley worked 

™ great together and everyone seemed so at ease. I thought the movie plot was 


= very good and hope everyone else enjoys it to! Be sure and rent it!! Also 
they had some great soccer scenes for all those soccer players! :)"') 


下 一 步 是 数据 的 分 词 和 向 量化 。 我 们 将 使 用 基于 谷歌 新 闻 的 预 训练 Word2vec 词 向 量 ， 因 此 
可 以 先 通过 nlpia 包 或 直接 从 谷歌 下 载 这 些 数据 。 

然后 像 第 6 章 中 所 述 ， 使 用 gensim 来 拆 解 这 些 向 量 。 在 load_word2vec_ format 方法 中 
可 以 设置 1imit 参数 ; limit 设置 较 大 时 可 以 加 载 更 多 的 向 量 ， 不 过 内 存 会 成 为 一 个 问题 ， 其 
投入 产 出 比 在 Limit 值 设 置 很 大 时 会 迅速 下 降 。 

我 们 编写 一 个 辅助 函数 来 对 数据 进行 分 词 ， 并 创建 一 个 用 于 传递 给 模型 的 输入 词 条 向 量 列 
表 ， 如 代码 清单 7-4 所 示 。 

















代码 清单 7-4 向 量化 及 分 词 器 





>>> from nltk.tokenize import TreebankWordTokenizer 
>>> from gensim.models.keyedvectors import KeyedVectors 





D 详 见 标题 为 “GoogleNews-vectors-negative300.bin.gz - Google Drive” 的 下 载 页 面 。 


局 
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>>> from nlpia.loaders import get_data < 
>>> word vectors = get_data('w2v', limit=200000) 





>>> def tokenize and vectorize (dataset): get_data(w2v') 将 下 载 “GoogleNews- 


vectorsnegative300.bin.gz” 到 | nlpia.loaders. 
BIGDATA PATH 目录 下 


tokenizer = TreebankWordTokenizer () 
vectorized data = [] 
expected = [] 
for sample in dataset: 
tokens = tokenizer.tokenize(sample[1] 
sample vecs = [] 
for token in tokens: 
Cry 
sample vecs.append (word vectors[token]) 


except KeyError: 
pass # No matching token in the Google w2v vocab 


vectorized_data.append(sample_vecs) 


return vectorized data 


注意 ， 这 个 地 方 有 一 些 信息 损 失 。 谷 歌 新 闻 的 Word2vec 词汇 表 中 只 包含 了 一 部 分 停 用 词 ， 
使 很 多 像 “a” 这 样 的 常用 词 将 在 函数 处 理 过 程 中 被 丢弃 ， 这 个 处 理 不 是 特别 理想 ， 不 过 大 家 可 
以 通过 这 个 方法 得 到 一 个 信息 有 损失 情况 下 的 卷 积 神经 网 络 的 基线 性 能 。 如 果 想 要 避免 信息 损 
失 ， 大 家 可 以 单独 训练 word2vec 模型 ， 以 确保 有 更 好 的 向 量 获 羔 率 。 男 外 ， 数 据 中 还 有 很 多 类 
似 于 <bn> 的 HTML 标签 ， 它 们 通常 与 文本 的 情感 无 关 ， 必 须 从 数据 中 去 除 。 

大 家 还 需要 收集 目标 值 (0 表示 负面 评价 ，! 表示 正面 评价 ), 将 其 按照 与 训练 样本 相同 的 顺 
序 排 列 ， 如 代码 清单 7-5 所 示 。 


























代码 清单 7-5 目标 标签 





>>> def collect expected (dataset): 
""™ Peel off the target values from the dataset """ 
expected = [] 
for sample in dataset: 
expected.append(sample[0] 
return expected 


然后 将 数据 传人 这 些 函 数 : 


>>> vectorized data = tokenize and vectorize (dataset) 
>>> expected = collect expected (dataset) 


接 下 来 ， 把 准备 好 的 数据 分 成 训练 集 和 测试 集 ， 如 果 直 接 对 导入 的 数据 集 进 行 80/20 划分 ， 
会 忽略 test 文件 夹 中 的 数据 。 实 际 上 ,下 载 的 原始 数据 中 的 训练 目录 和 测试 目录 都 包含 了 有 效 的 
训练 数据 和 测试 数据 ， 可 以 对 数据 进行 随意 组 合 ， 数 据 越 多 越 好 。 大 家 下 载 的 大 多 数 数据 集中 
train/ 和 test/ 目 录 是 由 该 数据 包 的 维护 者 按照 特定 的 训练 集 /测试 集 比例 划分 的 ， 目 的 是 为 了 让 大 
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家 能 准确 地 复 现 这 些 目 录 的 结果 。” 

下 一 段 代码 将 数据 分 别 放 入 训练 集 (x train) 和 对 应 的 “正确 ”答案 (y_train )， 以 及 
测试 集 ( x_test ) 和 对 应 的 答案 (y_test ) 中。 大 家 可 以 让 网 络 对 测试 集中 的 样本 进行 “预测 ”， 
验证 它 是 否 能 正确 学 到 一 些 训练 数据 之 外 的 东西 。y_train 、Y_test 分 别 对 应 x train, 
x test 集合 中 每 个 样本 的 “正确 ”答案 ， 如 代码 清单 7-6 所 示 。 





代码 清单 7-6 ”划分 训练 集 /测试 集 





>>> split_point = int (len(vectorized_data) *.8) 


>>> x_train = vectorized_data[:split_point_] 
>>> y_train_ = expected[:split_point] 

>>> x_test = vectorized_data[split_point:] 
>>> y_test = expected[split_point:] 


下 一 段 代码 (代码 清单 7-7) 设置 了 网 络 的 大 部 分 超 参数 。max1len 变量 用 于 设置 评论 的 最 
大 长 度 。 因 为 卷 积 神经 网 络 的 每 个 输入 必须 具有 相同 的 维 数 , 所 以 需要 截断 超出 400 个 词 条 的 样 
本 ,并 填充 少 于 400 个 词 条 的 样本 , 填充 值 可 以 是 Null 或 0; 在 表示 原始 文本 时 , 通常 使 用 “PAD” 
标记 来 表示 填充 位 置 。 这 个 处 理 将 向 系统 引入 新 的 数据 。 不 过 网 络 本 身 也 会 学 习 这 种 模式 ， 使 
PAD == “ignore me” 成 为 网 络 结构 的 一 部 分 ， 所 以 这 不 是 世界 末日 。 

注意 , 这 个 填充 与 前 面 介绍 的 填充 不 同 。 这 里 的 填充 是 为 了 使 输入 大 小 保持 一 致 。 对 每 个 训 
练 样本 的 开头 和 结尾 填充 都 需要 单独 考虑 , 这 具体 取决 于 是 否 希 望 输出 具有 相同 的 大 小 以 及 结 
位 置 上 的 词 条 是 否 与 中 间 位 置 上 的 词 条 作 相 同 的 处 理 或 者 是 否 对 起 始 /结束 词 条 区 别 对 待 ， 如 代 
码 清单 7-7 所 示 。 


Kiss 7-7 CNN 参数 


在 后 向 传播 误差 和 更 新 权重 





fan 























前 ， 向 网 络 输入 的 样本 数量 传人 卷 积 神经 
网 络 中 词 条 向 
maxlen = 400 量 的 长 度 要 训练 的 卷 积 核 
batch size = 32 的 数量 
embedding_dims = 300 < 
filters = 250 < 
A E E ü 卷 积 核 大 小 : 每 个 卷 积 核 将 是 一 个 矩 


hidden_dims = 250 <-——————_q 





在 普通 的 前 馈 网 络 中 阵 : embedding dims x kernel size, 在 











epochs = 2 传播 链 端 点 的 神经 元 本 例 中 是 250 x 3 
整个 训练 数据 集 在 网 络 中 的 数量 
的 传人 次 数 





提示 “在 代码 清单 7-7 中 ，kernel size ( 卷 积 核 大 小 或 窗口 大 小 ) 是 一 个 标量 值 ， 而 不 是 图 像 
中 二 维 型 卷 积 核 的 向 量 值 。 这 个 卷 积 核 将 一 次 查看 3 个 词 条 的 词 向 量 。 仅 在 第 一 层 中 考虑 卷 积 核 大 

















D 在 测试 模型 时 最 好 使 用 从 未 见 过 的 测试 数据 来 公开 测试 性 能 。 不 过 ,在 最 终 部 署 给 用 户 时 ， 尽 量 使 用 所 
有 的 标注 数据 来 进行 模型 的 训练 。 
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小 会 有 一 定 的 帮助 ， 就 像 文本 的 n-gram, ERAF, 我 们 关注 的 是 输入 文本 的 3-gram， 当 然 也 可 以 
换 成 5-gram、7-gram 甚至 更 多 元 关系 , 这 主要 取决 于 数据 和 任务 , 所 以 大 家 可 以 在 模型 里 随意 试验 
这 个 参数 。 


Keras 中 提供 了 预 处 理 辅助 方法 pad sequences, 理论 上 可 以 用 于 填充 输入 数据 ， 但 是 ， 
只 对 标量 序列 有 效 ， 而 我 们 这 里 是 向 量 序列 。 所 以 我 们 需要 自己 编写 一 个 辅助 函数 来 填充 输入 
ae 如 代码 清单 7-8 所 示 。 











代码 清单 7-8 填充 及 截断 词 条 序列 








>>> def pad_trunc(data, maxlen): < 


wow 
For a given dataset pad with zero vectors or truncate to maxlen 


a 一 位 聪明 的 LiveBook 读者 ( @madara ) 指出 ， 这 个 函数 可 以 通过 一 行 代码 


new deta = L] 实现 :[smp[:maxlen] +[[0.] * emb_dim] * (maxlen - len(smp)) for smp in data] 


# Create a vector of 0s the length of our word vectors 

zero_vector = [] 

for _ in range(len(data[0][0])): 
zero_vector.append (0.0) 


for sample in data: 

if len(sample) > maxlen: 
temp = sample[:maxlen] 

elif len(sample) < maxlen: 
temp = sample 
# Append the appropriate number 0 vectors to the list 
additional_elems = maxlen - len(sample) 
for _ in range (additional_elems): 

temp.append(zero_vector) 


else: 最 后 将 扩展 后 的 数据 放 在 
temp = sample 扩展 数据 列表 的 最 后 


new_data.append (temp) 
return new_data 


SRY Beal BEI AE PT TR EAE E BS oe a eas, SRN numpy 数 
组 ， 以 便 在 Keras 中 使 用 。 这 就 是 该 CNN 网 络 所 需 形状 的 张 量 ( 大 小 为 样本 数量 x 序列 长 度 x 词 
向 量 长 度 )。 如 代码 清单 7-9 所 示 。 











代码 清单 7-9 收集 经 过 扩展 和 截断 的 数据 





>>> x_train = pad_trunc(x_train, maxlen) 
>>> x_test = pad_trunc(x_test, maxlen) 


>>> x_train = np.reshape(x_train, (len(x_train), maxlen, embedding_dims) ) 


>>> y_train = np.array(y_train) 
>>> x_test = np.reshape(x_test, (len(x_test), maxlen, embedding_dims) ) 
>>> y_test = np.array(y_test) 
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现在 我 们 终于 准备 好 构建 一 个 神经 网 络 了 。 


7.4.2 ” 卷 积 神经 网 络 架 构 


下 面 的 介绍 将 从 基本 的 神经 网 络 模型 类 Sequential 开始 。 与 第 5 章 中 的 前 馈 网 络 一 样 ， 
Sequential 是 Keras 中 神经 网 络 的 基 类 之 一 。 从 这 里 大 家 可 以 开始 添加 具有 魔力 的 网 络 层 。 

我 们 添加 的 第 一 个 部 分 是 卷 积 层 。 在 本 例 中 , 假设 输出 层 的 维度 小 于 输入 层 , 填充 符号 设置 
为 'valiqd'。 每 个 卷 积 核 从 句 首 的 最 左 侧 边缘 开始 ， 到 最 右 侧 边 缘 的 最 后 一 个 词 条 停止 。 

卷 积 核 每 次 将 移动 一 个 词 条 ( 步 长 )。 如 代码 清单 7-7 所 示 ， 卷 积 核 (窗口 宽度 ) 大 小 设 为 
3 个 词 条 , 并 使 用 ' relu' 作 为 激活 函数 。 每 一 步 都 将 卷 积 核 的 权重 与 它 正在 查看 的 3 个 词 条 
( 逐个 元 素 ) 相 乘 ， 然 后 进行 加 和 ， 如 果 结 果 大 于 0， 则 继续 传递 ， 否 则 输出 0， 最 后 的 结果 
( 正 数 或 0 ) 将 传递 给 修正 线性 单元 ( rectified linear unit, ReLU ) 激活 函数 ， 如 代码 清单 7-10 
所 示 。 








代码 清单 7-10 ”构建 一 个 一 维 CNN 





>>> print ("Build model...') 


>>> model = Sequential () ma Ss SS as 
k 了 这 是 Keras 中 标准 的 模型 定义 方式 。 在 








第 10 章 中 ,大 家 将 学 到 另 一 种 构造 方式 
“函数 式 API” 





>>> model.add(Conv1D ( 
filters, 
kernel size, 


adding='valid', f = » Z Rea ; Aa 
a NE 添加 一 个 Conv1D 层 ， 它 将 学 习 长 度 为 kemel_ size 的 词组 卷 


eee 积 核 。 还 有 许多 关键 词 参数 ， 不 过 现在 只 使 用 默认 值 即 可 


input_shape=(maxlen, embedding_dims) ) ) < 


























7.4.3 池 化 


大 家 已 经 建立 了 一 个 神经 网 络 ， 所 以 …… 都 来 “池子 ”里 吧 ! 池 化 是 卷 积 神经 网 络 中 一 种 降 
维 方法 。 在 某 种 程度 上 , 我 们 正在 通过 并 行 计算 来 加 快 处 理 速度 。 但 是 可 能 大 家 也 注意 到 ， 每 个 
我 们 定义 的 卷 积 核 都 会 创建 一 个 新 “版 本 ”的 数据 样本 ， 即 经 过 卷 积 过 滤 的 数据 样本 。 在 前 面 的 
示例 中 ， 第 一 层 卷 积 网 络 将 产生 250 个 过 滤 后 的 版 本 数据 ( 如 代码 清单 7-7 所 示 )。 池 化 不 但 能 
够 在 一 定 程度 上 缓解 输出 过 多 的 情况 ， 还 有 另 一 个 显著 特性 。 

池 化 的 关键 思想 是 把 每 个 卷 积 核 的 输出 均匀 地 分 成 多 个 子 部 分 , 对 于 每 个 子 部 分 , 挑选 或 计 
算出 一 个 具有 代表 性 的 值 。 然 后 就 可 以 将 原始 输出 放 在 一 边 而 只 使 用 这 些 具有 代表 性 的 值 的 集合 
来 作为 下 一 层 的 输入 。 

等 等 | 丢弃 数据 不 是 很 糟糕 吗 ? 一 般 来 说 ， 丢 弃 数 据 不 会 是 一 个 理想 的 方案 。 但 事实 证 明 ， 
这 是 学 习 源 数据 高 阶 表示 的 一 种 有 效 途 径 。 卷 积 核 通过 这 种 训练 来 发 现 数据 中 的 模式 , 这 些 模式 
存在 于 词 和 相 邻 词 之 间 的 关系 中 ! 就 是 那 种 我 们 开始 寻找 的 微妙 信息 。 
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在 图 像 处 理 中 , 第 一 层 学 到 的 往往 是 边缘 信息 ,位 于 像素 密度 迅速 变化 的 部 分 。 后面 的 层 会 
学 到 形状 和 纹理 等 概念 。 再 之 后 的 层 可 能 会 学 到 “内 容 ” 或 “含义 ”"。 类 似 的 过 程 也 会 发 生 在 文 
AE. 

提示 在 图 像 处 理 中 ， 池 化 区 域 通常 是 2 x 2 的 像素 窗口 (它们 不 像 卷 积 核 那 样 相互 重合 )， 而 在 一 

维 卷 积 中 它们 是 一 维 窗口 (如 1x2 或 1x3)。 

池 化 有 两 种 方式 (如 图 7-9 所 示 ): 平均 池 化 和 最 大 池 化 。 平均 池 化 是 比较 直观 的 一 种 方式 ， 
通过 求 子 集 的 平均 值 理 论 上 可 以 保留 最 多 的 数据 信息 。 而 最 大 池 化 有 一 个 有 趣 的 特性 , 通过 取 给 
定 区 域 中 的 最 大 激活 值 , 网 络 可 以 看 到 这 个 片段 中 最 突出 的 特征 。 网 络 有 一 条 学 习 路 径 来 决定 应 
该 看 什么 ， 而 不 管 确切 的 像素 级 位 置 ! 












































二 维 最 大 池 化 (2 x 2 窗口 ) 





0.15 | 0.12| 0.00] 0.23| 





0.33 | 0.23 | 0.52| 0.23| 0.33| 0.52 





0.00 | 0.02 | 0.34| 0.33 0.66| 0.66 














0.00 | 0.66| 0.66| 0.56 








一 维 最 大 池 化 《1 x 2 窗口 ) 





cenm 





一 维 全 局 最 大 池 化 


0.33 | 0.23 | 0.52] 0.23 | 0.99| 0.16] 0.00 001} —+ 099| 


图 7-9 池 化 层 














除了 降 维和 节省 计算 量 , 我 们 还 得 到 了 一 些 特殊 收获 : 位 置 不 变性 。 如 果 原 始 输入 在 相似 但 
有 区 别 的 输入 样本 中 的 位 置 发 生 轻微 变化 , 则 最 大 池 化 层 仍然 会 输出 类 似 的 内 容 。 这 在 图 像 识 别 
领域 中 是 一 个 非常 有 用 的 特性 ， 在 自然 语言 处 理 中 也 有 类 似 的 作用 。 

在 Keras 的 这 个 简单 示例 中 , 大 家 使 用 的 是 GlobalMaxPooling1D 层 。 不 是 对 每 个 卷 积 核 
输出 的 各 个 子 部 分 取 最 大 值 ， 而 是 对 该 卷 积 核 整 体 输出 取 最 大 值 ， 这 将 导致 大 量 的 信息 损失 。 但 
是 ， 即 使 损失 了 这 些 信息 ， 大 家 的 这 个 模型 也 不 会 有 问题 : 















































>>> model.add(GlobalMaxPooling1D() ) < 


可 选 的 池 化 方法 有 GlobalMaxPooling1D()、 
MaxPooling1D(n)8k AvgPooling1D(m)， 其 中 
n 表示 池 化 区 域 大 小 ， 黑 认 值 为 2 
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好 了 ， 拿 上 毛巾 ， 离 开 池 子 。 我 们 回顾 一 下 : 

四 “对 于 每 个 输入 样本 ， 应 用 一 个 卷 积 核 (权重 和 激活 函数 ); 

E 卷 积 输出 的 一 维 向 量 的 维度 略 小 于 原始 输入 ( 输入 数据 维度 为 400 )， 卷 积 核 开 始 于 输入 

数据 的 左 对 齐 位 置 ， 结 束 于 右 对 齐 位 置 ， 输 出 维度 为 1 x 398; 

四 “对 于 每 个 卷 积 核 的 输出 GE, A 250 个 卷 积 核 )， 取 每 个 一 维 向 量 的 最 大 值 ; 

m 对 于 每 个 输入 样本 得 到 一 个 1 x 250 向 量 (250 是 卷 积 核 的 数量 )。 

对 于 每 个 输入 样本 ,都 有 一 个 一 维 向 量 , 网 络 认为 这 个 向 量 很 好 地 表示 了 输入 样本 。 这 就 是 
输入 数据 的 语义 表示 一 一 当然 还 比较 粗糙 , 并 且 , 这 只 是 在 以 情感 为 训练 目标 的 上 下 文中 的 语义 
表示 。 所 以 ， 它 并 不 能 对 电影 评论 的 内 容 进行 编码 ， 只 能 对 情感 编码 。 

大 家 还 没有 进行 任何 训练 , 所 以 这 还 只 是 一 堆 数 字 。 我 们 稍 后 再 来 讨论 这 个 事情 。 这 里 是 一 
个 很 重要 的 节点 , 一旦 对 网 络 进行 训练 ,这 个 语义 表示 就 会 变 得 非常 有 用 ( 我们 喜欢 把 它 理解 成 
一 个 “思想 向 量 ”)。 就 像 将 词 甬 人 回 量 之 后 一 样 ， 大 家 也 可 以 对 这 些 语 义 表 示 进 行 数 学 运算 : 我 
们 现在 拥有 了 可 以 表示 整个 词组 的 向 量 。 

兴奋 之 余 ， 我 们 回 到 艰难 的 训练 工作 。 大 家 有 一 个 工作 的 目标 ， 那 就 是 情感 标签 。 将 当前 
的 向 量 传人 一 个 标准 的 前 馈 网 络 ， 在 Keras 中 就 是 Dense 层 。 当 前 语义 向 量 中 的 元 素数 量 与 
Dense 层 中 的 节点 数量 相同 ， 但 这 只 是 一 个 巧合 。Dense 层 中 250 个 神经 元 (hidden dims), 
每 个 神经 元 都 有 250 个 权重 与 池 化 层 传递 过 来 的 输入 相对 应 。 大 家 可 以 使 用 dropout 层 来 进行 
调整 ， 以 防止 过 拟 合 。 



















































































































































































7.4.4 dropout 


dropout ( Keras 中 表示 为 一 个 层 ， 如 代码 清单 7-11 所 示 ) 是 一 种 特殊 的 技术 ， 用 于 防止 神经 
网 络 中 的 过 拟 合 。 它 并 不 是 自然 语言 处 理 中 特有 的 ， 但 用 在 这 里 效果 很 好 。 

其 理念 是 ,在 训练 过 程 中 ， 如 果 按 照 一 定 比 例 随机 “ 关 掉 ”部 分 进入 下 一 层 的 输入 数据 ， 这 
样 模型 就 不 会 学 到 训练 集 的 特点 ， 导 致 “ 过 拟 合 ” ， 而 是 会 学 到 更 多 数据 中 的 略 有 差别 的 表示 模 
式 ， 从 而 在 看 到 全 新 的 数据 时 ， 能 够 对 数据 进行 概括 并 做 出 更 精确 的 预测 。 

模型 通过 假设 在 某 特定 输入 时 ， 进入 Dropout 层 的 输出 (来自 上 一 层 的 输出 ) 为 零 来 实现 
dropout。 这 样 接 收 到 dropout 输入 数据 的 每 个 神经 元 的 权重 对 整体 误差 的 贡献 实际 上 也 是 零 。 因 
此 , 在 反 向 传播 过 程 中 这 些 权重 不 会 更 新 。 然 后 网 络 将 被 迫 依赖 不 同 权 重 集 之 间 的 关系 来 实现 优 
化 目标 〈 和 希望 它们 不 会 因为 这 种 严厉 的 爱 来 反抗 我 们 )。 

提示 “不 要 过 于 担心 这 一 点 ， 但 是 注意 Keras 在 Dropout 层 下 面 会 做 一 些 神奇 的 操作 。 在 每 次 向 前 

传递 训练 数据 时 ，Keras 会 随机 关闭 一 定 比例 的 输入 数据 ， 而 在 对 实际 应 用 的 推理 或 预测 时 ， 则 不 

会 做 dropout， 所 以 在 非 训练 的 推理 阶段 ，Dropout 层 后 面 的 层 接收 到 的 信号 强度 会 显著 增强 。 

为 了 缓解 这 个 问题 ，Keras 在 训练 阶段 会 按 比例 增强 所 有 的 未 关闭 输入 ， 使 进入 下 一 层 的 聚合 信和 号 

与 推理 阶段 时 的 强度 相同 。 
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在 Keras 中 Dropout 层 接收 的 参数 是 输入 数据 随机 关闭 的 比例 。 在 这 个 例子 中 ， 仅 为 每 个 训 
练 样本 随机 选择 80% 的 舰 入 数据 按 原样 传递 到 下 一 层 ， 其 余 的 会 设置 为 0。 一般 将 dropout 参数 
设置 为 20%， 不 过 50% 的 比例 也 可 以 有 很 好 的 结果 ( 你 还 可 以 使 用 其 他 超 参数 )。 

然后 在 每 个 神经 元 的 输出 端 使 用 修正 线性 单元 作为 激活 函数 (relu), 如 代码 清单 7-11 所 示 。 





代码 清单 7-11 FF dropout 的 全 连接 层 
>>> model.add(Dense (hidden_dims) ) E 从 一 个 普通 的 全 连接 





>>> model.add(Dropout (0.2) ) 
>>> model.add(Activation('relu') ) 


隐藏 层 开 始 ， 然 后 加 入 
dropout 和 ReLU 


7.4.5 输出 层 


最 后 一 层 ， 或 者 输出 层 ， 是 实际 的 分 类 器 ， 这 里 有 一 个 基于 sigmoid 激活 函数 的 神经 元 ， 
它 的 输出 是 0 到 1 之 间 的 值 。 在 验证 阶段 ，Keras 将 小 于 0.5 的 值 分 为 0 类 ,大 于 0.5 的 值 分 为 1 
类 ， 但 在 计算 损失 时 ， 是 用 目标 值 减 去 由 sigmoid 计算 的 实际 值 来 得 到 的 : (y 一 fx))。 

接 下 来 将 数据 投射 到 只 有 单个 神经 元 的 输出 层 ， 并 将 信号 传人 sigmoid 激活 函数 ， 如 代码 清 
单 7-12 所 示 。 





代码 清单 7-12 漏斗 funnel 





>>> model.add(Dense (1) ) 
>>> model.add(Activation('sigmoid') ) 


现在 大 家 终于 有 了 一 个 在 Keras 中 定义 的 卷 积 神经 网 络 模型 。 接 下 来 就 是 编译 和 训练 了 ， 如 
代码 清单 7-13 所 示 。 


代码 清单 7-13 ”编译 CNN 


>>> model.compile(loss='binary_crossentropy', 

optimizer='adam', 

ee metrics=['accuracy']) 

网 络 的 训练 目标 是 最 小 化 损失 函数 1oss ， 在 这 里 我 们 使 用 'binary_crossentropy'。 在 编 
写本 书 时 ，Keras 中 已 经 定义 了 13 个 损失 函数 ， 并 且 大 家 可 以 定义 自己 的 损失 函数 。 这 里 不 会 对 每 
种 损失 函数 的 示例 都 展开 介绍 , 不 过 binary crossentropy 和 categorical crossentropy 
这 两 者 是 需要 去 了 解 的 。 

两 者 在 数学 定义 上 很 相似 ， 很 多 情况 下 可 以 将 binary crossentropy 看 作 categorical 
crossentropy 的 一 种 特殊 情况 。 重 要 的 是 要 了 解 何 时 该 选择 使 用 哪 一 个 。 由 于 在 这 个 例子 中 
只 有 一 个 输出 神经 元 打开 或 关闭 ， 因 此 选择 使 用 binary_crossentropy。 

categorical 常用 于 多 分 类 预测 ， 在 这 些 情况 下， 目标 输出 将 是 一 个 独 热 编码 的 维 向 量 ， 
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个 位 置 代表 个 类 中 的 一 个 类 。 在 这 个 例子 中 ， 网 络 中 的 最 后 一 层 如 代码 清单 7-14 所 示 。 





代码 清单 7-14 categorical 变量 的 输出 层 ( 词 ) 


>>> model.add (Dense (num classes)) num classes 在 哪 呢 ……: 
>>> model.add (Activation('sigmoid')) 好 吧 ， 你 懂 的 





在 这 种 情况 下 ， 目 标 值 减 去 输出 值 (yf) ) 将 是 一 个 n 维 向 量 减 去 男 一 个 n AB TE 
categorical crossentropy 会 尝试 来 最 小 化 这 个 差 值 。 
还 是 让 我 们 回 到 二 分 类 问题 上 来 。 


1. 优化 


optimizer 参数 用 于 设置 网 络 在 训练 阶段 的 一 系列 优化 策略 ， 包 括 随机 梯度 下 降 、Adam 
和 RSMProp 等 。 这 些 优 化 策略 都 是 神经 网 络 中 针对 最 小 化 损失 函数 的 不 同方 法 ， 其 背后 的 数学 
原理 超出 了 本 书 的 范围 , 不 过 大 家 还 是 要 注意 ,针对 特定 问题 可 以 尝试 不 同 的 优化 方法 。 对 于 某 
个 问题 ， 虽 然 很 多 优化 器 能 收敛 ， 但 有 些 不 会 ， 并 且 它 们 会 以 不 同 的 速率 收敛 。 

它们 的 魔力 来 自 根据 当前 的 训练 状态 动态 地 改变 训练 参数 ， 特 别 是 学 习 率 参数 。 例 如 ， 
学 习 率 可 能 会 随 着 时 间 的 推移 而 衰减 ( 记 住 : a 是 应 用 于 权重 更 新 的 学 习 率 , 如 第 5 章 中 所 
B) 或 者 还 有 一 些 方法 会 使 用 动量 , 根据 权重 最 后 一 次 成 功 减 少 损失 的 移动 方向 来 增加 学 
习 率 。 

每 个 优化 器 本 身 都 有 一 些 超 参数 ， 如 学 习 率 。Keras 对 这 些 超 参数 都 设 有 很 好 的 默认 值 ， 所 
以 一 开始 不 必 过 多 考虑 这 些 超 参数 。 


2. WEA 


compile 完成 模型 的 构建 ，fit 完成 模型 的 训练 。 训 练 过 程 中 所 有 的 操作 ， 包 括 输入 与 权 
重 相 乘 、 激 活 函 数 、 反 向 传播 等 都 是 由 这 一 条 语句 启动 的 。 这 个 过 程 耗费 的 时 间 取 决 于 硬件 配置 、 
模型 大 小 及 数据 规模 ， 可 能 需要 几 秒 到 几 个 月 不 等 。 在 大 多 数 情况 下 ， 使 用 GPU 可 以 大 大 减少 
训练 时 间 ， 如 果 大 家 有 GPU 的 话 ， 请 务必 使 用 GPU。 需 要 传 给 Keras 一 些 额 外 的 环境 变量 来 指 
导 它 使 用 GPU。 不 过 这 个 例子 很 小 ， 大 多 数 现代 CPU 都 能 在 合理 的 时 间 内 完成 运行 ， 如 代码 清 
单 7-15 所 示 。 





7 























代码 清单 7-15 训练 CNN 





反 向 传播 更 新 权重 之 前 处 理 的 数据 样本 
数 。 每 个 批 次 中 个 样本 的 累计 误差 会 同 
时 处 理 














>>> model.fit(x_train, y train, 
batch size=batch size, < 


epochs=epochs, 4 
ET, Air 个 ` 
validation_data=(x_test, y_test)) 停止 前 整个 数据 集 的 训 
练 次 数 
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7.4.6 ”开始 学 习 ( 训练 ) 


在 点 击 运行 前 还 有 最 后 一 步 。 大 家 可 能 希望 在 完成 训练 后 保存 模型 状态 。 因 为 现在 并 不 打算 
把 模型 保存 在 内 存 中 , 大 家 可 以 将 模型 的 结构 保存 在 ISON 文件 中 , 并 将 训练 后 的 权重 保存 在 另 
一 个 文件 中 ， 以 便 之 后 重新 实例 化 ， 如 代码 清单 7-16 所 示 。 


代码 清单 7-16 ”保存 模型 


注意 ， 这 个 地 方 仅 保存 模型 结 
构 ， 并 不 会 保存 模型 权重 


























>>> model_structure = model.to_json() < 
>>> with open("cnn_model.json", "w") as json_file: 

json_file.write (model_structure) 保存 训练 好 的 模型 
>>> model.save_weights ("cnn_weights.h5") 





这 样 训练 好 的 模型 将 保存 在 磁盘 上 ， 它 已 经 收敛 了 ， 所 以 无 须 再 训练 一 次 。 

Keras 在 训练 阶段 提供 了 一 些 非常 有 用 的 回调 方法 ， 可 以 作为 关键 词 参数 传递 给 fit 方法 ， 
例如 检查 点 checkpointing， 当 精确 率 提 高 或 损失 减少 时 可 以 迭代 地 保存 模型 ， 或 者 早 停 
EarlyStopping， 当 在 一 个 指定 的 评价 方法 上 模型 效果 不 再 改善 时 ， 则 提前 停止 训练 。 而 最 令 
人 兴奋 的 是 ， 它 们 实现 了 TensorBoard 回调 方法 ， 只 有 在 TensorFlow 作为 后 端 时 TensorBoard 才 
能 发 挥 作 用 ， 但 它 提 供 了 强大 的 探查 模型 内 部 结构 的 功能 ， 在 排除 故障 和 调 优 时 是 不 可 或 缺 的 。 
我 们 开始 学 习 吧 ! 运行 上 面 的 compile 和 fit 步骤 将 会 得 到 以 下 输出 : 

Using TensorFlow backend. 

Loading data... 

25000 train sequences 

25000 test sequences 

Pad sequences (samples x time) 

x_train shape: (25000, 400) 

x_test shape: (25000, 400) 


Build model... 
Train on 20000 samples, validate on 5000 samples 











Epoch 1/2 [================================] - 417s - loss: 0.3756 - 
acc: 0.8248 - val_loss: 0.3531 - val_acc: 0.8390 
Epoch 2/2 [================================] - 330s - loss: 0.2409 - 


acc: 0.9018 - val_loss: 0.2767 - val_acc: 0.8840 

由 于 神经 元 的 初始 权重 是 随机 选择 的 , 大 家 得 到 的 最 终 损失 和 精确 率 可 能 会 有 所 不 同 。 可 以 
通过 为 随机 数 生 成 器 设置 种 子 来 克服 这 种 随机 性 , 实现 一 个 可 重复 的 流水 线 。 这 样 做 可 以 使 每 次 
运行 时 的 初始 权重 为 相同 的 随机 值 ， 这 对 模型 调试 和 调 优 很 有 帮助 。 记 住 ， 起 始点 可 能 会 使 模型 
陷入 局 部 极 小 值 ， 甚 至 阻止 模型 收敛 ， 所 以 我 们 建议 大 家 可 以 尝试 一 些 不 同 的 种 子 。 

要 设置 种 子 , 请 在 模型 定义 前 添加 以 下 两 行 代码 。 传 人 seed 参数 的 数值 并 不 重要 ， 只 要 保 
持 一 致 ， 模 型 就 会 将 权重 初始 化 为 小 值 : 


>>> import numpy as np 
>>> np.random.seed (1337) 
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我 们 还 没有 看 到 明显 的 过 拟 合 迹 象 ; 训练 集 和 验证 集 上 的 精确 率 都 有 所 提高 。 大 家 可 以 让 模 
型 再 运行 一 两 个 训练 周期 ， 看 看 是 否 可 以 在 不 过 拟 合 的 情况 下 继续 提高 精确 率 。 只 要 模型 还 在 内 
存 中 ， 或 者 从 保存 文件 中 重新 加 载 进来 ，Keras 就 可 以 从 这 个 保存 点 继续 进行 训练 。 只 要 再 次 调 
H fit 方法 〈 无 论 是 否 更 改 样本 数据 )， 就 能 从 最 近 一 次 状态 中 恢复 训练 。 


提示 。 当 训练 中 的 损失 持续 减少 ， 而 验证 损失 val loss 在 周期 结束 时 与 前 一 周期 相 比 开始 增加 
时 ， 就 出 现 了 明显 的 过 拟 合 。 找 到 验证 损失 曲线 开始 向 上 弯曲 的 中 间 值 是 获得 一 个 好 模型 的 关键 。 


ARE! 完成 了 ! 现在 ， 大 家 想 想 刚 才 做 了 什么 ? 

首先 对 模型 进行 描述 ， 并 将 其 编译 为 初始 未 训练 状态 ， 然 后 调用 fit 方法 ,通过 反 向 传播 
每 个 样本 的 误差 来 学 习 最 后 面 的 卷 积 核 和 前 馈 全 连接 网 络 之 间 的 权重 , 以 及 250 个 不 同 的 卷 积 核 
各 目的 权重 。 

训练 过 程 中 用 损失 来 报告 进度 , 这 里 我 们 用 的 是 binary_crossentropy。 对 于 每 个 批 次 ， 
Keras 都 报告 一 个 度量 指标 ， 即 我 们 与 为 该 样本 提供 的 标签 之 间 的 距离 。 精 确 率 是 指 “ 正 确 猜测 
的 百分比 "。 这 个 度量 指标 看 起 来 很 有 趣 ， 但 肯定 会 误导 人 ,尤其 是 当 使 用 的 是 不 平衡 数据 集 的 
时 候 。 假设 有 100 个 样本 : 其 中 99 个 是 正 例 , 只 有 一 个 是 负 例 。 即 使 不 看 数据 ,直接 把 所 有 100 
个 样本 全 部 预测 为 正 例 ， 也 仍然 有 99% 的 精确 率 , 但 是 这 对 模型 泛 化 没有 任何 帮助 。val_loss 
和 val_acc 是 相同 的 度量 指标 ， 只 是 针对 的 是 如 下 测试 数据 集 : 

>>> validation data=(x test, y test) 

验证 样本 不 会 展示 给 网 络 进行 训练 ， 只 用 来 验证 模型 的 预测 效果 , 并 产生 度量 指标 报告 。 反 
向 传播 算法 不 会 发 生 在 这 些 样 本 上 。 这 有 助 于 跟踪 模型 在 新 的 、 真 实数 据 上 的 泛 化 效果 。 

这 样 大 家 就 已 经 完成 了 一 个 模型 的 训练 ,魔术 结束 了 ,大 家 已 经 把 盒子 里 的 一 切 都 弄 明白 了 。 
那 这 有 什么 作用 呢 ? 接 下 来 我 们 看 看 它 的 作用 。 


























































































































7.4.7 ”在 流水 线 中 使 用 模型 


大 家 拿 到 一 个 训练 完成 的 模型 之 后 , 可 以 向 模型 传人 一 个 新 的 样本 数据 , 看 看 网 络 会 如 何 识 
别 这 个 数据 。 输 入 数据 可 以 是 一 条 聊天 消息 或 者 Twitter 等 ， 在 这 里 的 例子 中 ,我 们 用 的 是 一 个 
虚构 的 数据 。 

首先 ， 如 果 模 型 不 在 内 存 中 ， 则 需要 从 模型 文件 中 实例 化 训练 好 的 模型 ， 如 代码 清单 7-17 所 示 。 


代码 清单 7-17 ”加载 保 存 的 模型 


>>> from keras.models import model_from json 

>>> with open("cnn_model.json", "r") as json_file: 
bd json string = json_file.read() 

>>> model = model_from_json(json_string) 














>>> model.load_weights('cnn_weights.h5"') 
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我 们 编 一 个 带 有 明显 负 向 情感 的 句子 ， 看 看 网 络 对 此 有 什么 看 法 。 具 体 做 法 参见 代码 清单 7-18。 


代码 清单 7-18 测试 样本 


>>> Sample 1 = "I hate that the dismal weather had me down for so long, 
™ when will it break! Ugh, when does happiness return? The sun is blinding 
= and the puffy clouds are too thin. I can't wait for the weekend." 


有 了 训练 好 的 模型 ， 可 以 快速 地 对 新 样本 数据 进行 测试 。 虽 然 还 是 需要 大 量 的 计算 ， 不 过 对 于 
每 个 样本 ， 只 需要 一 次 前 向 传播 就 能 得 到 结果 ， 不 需要 反 向 传播 。 具 体 做 法 参见 代码 清单 7-19。 





代码 清单 7-19 ”预测 
在 元 组 的 第 一 个 元 素 中 传递 一 个 虚 值 ， 因 为 你 的 
助手 希望 以 你 处 理 初始 数据 的 方式 得 到 它 。 这 个 
值 永远 看 不 到 网 络 ， 所 以 它 可 以 是 任意 值 


>>> vec_list = tokenize_and_vectorize([(1, sample_1)]) XE 











>>> test vec list = pad_trunc(vec_list, maxlen) < 


>>> test_vec = np.reshape(test_vec_list, (len(test_vec_list), maxlen, \ 


embedding_dims) ) Tokenize 返回 的 是 一 个 数据 列表 (这 


>>> model.predict (test_vec) 个 例子 里 列表 长 度 为 1) 
array([[ 0.12459087]], dtype=float32) 


Keras 中 predict 方法 给 出 了 网 络 最 后 一 层 的 原始 输出 ， 在 本 例 中 ,我 们 只 有 一 个 神经 元 ， 
因为 最 后 一 层 是 sigmoid， 它 将 输出 一 个 0 到 1 之 间 的 值 。 

Keras 中 predict classes 方法 可 以 输出 大 家 期 待 的 0 或 1。 如 果 是 多 分 类 问题 ,网 络 的 
最 后 一 层 可 能 是 softmax 函数 ， 每 个 输出 节点 代表 一 个 类 ， 节 点 的 输出 值 为 该 类 的 概率 ,调用 
predict_classes 方法 将 返回 输出 概率 值 最 高 的 那个 节点 。 

回 到 本 例 中 : 


>>> model.predict_classes (test_vec) 
array([[0]], dtype=int32) 


输出 确实 是 “ 负 向 ”情感 。 

包含 “happiness”“sun”“puffy”“clouds” 等 词 的 句子 不 一 定 总 是 充满 积极 情感 的 ， 就 像 带 
有 “dismal”“break”“down” 等 词 的 句子 也 不 一 定 代表 消极 情感 。 通 过 训练 好 的 神经 网 络 ,我 们 
能 够 检测 句子 中 潜在 的 模式 并 从 数据 的 泛 化 中 学 到 一 些 东 西 ， 而 无 须 硬 编码 任何 规则 。 




















7.48 前 景 展望 


在 引言 中 ， 我 们 讨论 了 CNN 在 图 像 处 理 中 的 重要 性 。 一 个 容易 被 忽略 的 关键 点 是 网 络 处 理 
信息 通道 (channel ) 的 能 力 。 在 黑白 图 像 中 ,二 维 图 像 有 一 个 通道 ， 每 个 数据 点 表示 像素 的 灰 度 
fa, 从 而 得 到 一 个 二 维 的 输入 数据 。 在 彩色 图 像 中 , 输入 仍然 是 像素 强度 , 但 是 它 被 分 为 红 、 绿 、 
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蓝 3 种 成 分 ， 从 而 使 网 络 的 输入 变 成 一 个 三 维 张 量 。 卷 积 核 也 随 之 变 成 三 维 的 ， 在 x、y 平面 上 
还 是 3x3 或 5x5, 但 有 了 3 层 的 深度 ,使 卷 积 核 变 为 “3 像素 宽 x3 像素 高 x3 通道 深 ”， 这 个 模 
式 在 自然 语言 处 理 中 得 到 了 有 趣 的 应 用 。 

网 络 的 输入 是 一 系列 彼此 相 邻 的 以 向 量 表示 的 词 ，400 个 词 宽 (最 大 长 度 ) x 300 个 元 素 长 ， 
然后 使 用 Word2vec 仍 人 作为 词 向 量 表示 。 正 如 大 家 在 前 几 章 中 看 到 的 ， 可 以 有 多 种 方式 来 生成 
词 误 入 。 如 果 选 择 多 种 词 戏 和 方式 并 将 它们 限制 为 相同 的 元 素数 , 就 可 以 把 它们 爱 加 起 来 像 通道 
那样 , 这 是 向 网 络 添加 信息 的 一 种 有 趣 的 方式 ,尤其 是 当 各 种 词 检 入 来 自 不 同 的 源 时 。 这 种 琶 加 
各 种 词 通 入 的 方式 会 导致 模型 复杂 度 成 倍增 长 ,使 训练 时 间 变 长 ， 从 而 可 能 会 得 不 偿 失 。 不 过 现 
在 大 家 可 以 明白 为 什么 我 们 一 开始 用 图 像 处 理 来 做 类 比 。 人 然而,， 词 租 入 中 各 个 维度 彼此 不 相关 ， 
这 与 图 像 处 理 中 的 颜色 通道 并 不 一 样 ， 所 以 图 像 处 理 的 例子 仅 供 参 考 。 

我 们 简要 介绍 了 卷 积 层 的 输出 〈 在 进入 前 馈 层 之 前 )。 这 种 语义 表示 是 一 个 重要 的 组 件 ， 它 
在 很 大 程度 上 实现 了 用 数字 表示 输入 文本 的 细节 以 及 内 在 含义 。 具体 在 这 个 例子 中 , 通过 学 习 样 
本 数据 的 正 负 情感 标签 并 进行 情感 分 析 , 实现 了 文本 细节 和 含义 的 表示 。 通过 在 男 一 组 特定 主题 
标记 的 分 类 数据 集 上 训练 生成 的 向 量 将 包含 许多 不 同 的 信息 。 直接 使 用 卷 积 神经 网 络 的 中 间 向 量 
并 不 常见 , 但 在 接 下 来 的 章节 中 大 家 会 看 到 一 些 其 他 神经 网 络 结构 的 例子 , 其 中 中 间 向 量 的 具体 
信息 变 得 非常 重要 ， 在 某 些 情况 下 甚至 就 是 网 络 的 最 终 目 标 。 

为 什么 在 NLP 分 类 任务 中 选择 CNN 呢 ? 它 的 主要 好 处 是 高 效率 。 在 许多 方面 , 由 于 池 化 层 
和 卷 积 核 大 小 所 造成 的 限制 (虽然 可 以 将 卷 积 核 设置 得 更 大 )， 会 导致 丢弃 大 量 的 信息 ， 但 这 并 
不 意味 着 它们 不 是 有 用 的 模型 。 大 家 已 经 看 到 ， 利 用 CNN 能 够 有 效 地 对 相对 较 大 的 数据 集 进行 
检测 和 预测 情感 ， 即 使 依赖 Word2vec WJA, CNN 也 可 以 在 不 映射 整个 语言 的 条 件 下 ,通过 较 
DH Ta} A BEA ARIZ AT 

CNN 还 可 以 用 在 哪些 领域 呢 ? 这 在 很 大 程度 上 取决 于 可 用 的 数据 集 ， 一 般 来 说 ， 可 以 通过 
受 加 卷 积 层 来 获得 意义 更 丰富 的 模型 ,例如 将 第 一 组 卷 积 核 的 输出 作为 样本 数据 传人 第 二 组 ， 以 
此 类 推 。 经 研究 还 发 现 , 使 用 多 个 大 小 不 同 的 卷 积 核 运 行 模型 ,并 将 各 个 大 小 不 同 的 卷 积 核 输 出 
连接 成 一 个 更 长 的 思想 向 量 , 然后 再 将 其 传递 到 最 终 的 前 馈 网 络 可 以 提供 更 精确 的 结果 。 世 界 是 
开放 的 ， 尽 情 实验 和 享受 吧 ! 















































































































































15 小 结 


卷 积 是 在 一 个 大 的 数据 集 上 滑动 窗口 (使 关注 点 保持 在 整体 的 一 个 子 集 上 )。 
神经 网 络 可 以 像 处 理 图 像 一 样 处 理 文 本 并 “理解 ”它们 。 

用 dropout 来 阻 得 学 习 过 程 实际 上 是 有 帮助 的 。 

情感 不 仅 存在 于 词 中 ， 还 存在 于 使 用 的 语言 模式 中 。 

神经 网 络 有 很 多 可 调 参 数 。 
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本 章 主 要 内 容 

图 具备 记忆 功能 的 神经 网 络 
图 循环 神经 网 络 的 构建 

国 循环 神经 网 络 的 数据 处 理 
m 随时 间 反 向 传播 ( BPTT ) 








第 7 章 展 示 了 卷 积 神经 网 络 如 何 分 析 文章 片段 或 者 一 个 句子 ,通过 给 序列 中 的 邻近 词 传递 一 
个 共享 权重 的 过 滤器 ( filter ) 来 跟踪 这 些 词 ( 在 词 向 量 上 进行 卷 积 )。 这 样 出 现在 文档 中 不 同 复 
的 词 就 可 以 被 一 起 检测 。 即 使 这 些 词 在 位 置 上 有 一 些 略 微 变化 , 网 络 也 能 对 这 些 变 化 具有 一 定 的 
容忍 度 。 重 要 的 是 ,彼此 相 邻 的 概念 会 对 网 络 产生 重大 的 影响 , 但 是 如 果 我 们 想 要 从 更 长 远 的 角 
度 来 考虑 时 序 更 长 的 关系 , 例如 比 一 个 句子 的 3 个 或 者 4 个 词 条 更 宽 的 窗口 ， 该 怎么 办 呢 。 大 家 
能 给 这 种 网 络 一 个 基础 概念 吗 ? 例如， 通过 记忆 的 方式 ? 

我 们 已 经 学 习 过 ， 对 于 前 馈 网 络 (feedforward network ) 的 每 个 训练 样本 ( 或 一 批 无 序 样本 ) 
和 输出 (或 一 批 输 出 )， 单 个 神经 元 中 的 网 络 权 重 会 根据 误差 使 用 反 向 传播 算法 (backpropagation ) 
进行 调整 。 输 入 数据 的 顺序 在 很 大 程度 上 不 会 影响 下 一 个 样本 学 习 阶 段 的 效果 。 卷 积 神经 网 络 试 
图 通过 捕捉 局 部 关系 来 发 掘 某 种 顺序 关系 ， 但 还 有 另 一 种 方法 可 以 获得 文本 的 序列 关系 。 

在 一 个 卷 积 神经 网 络 中 , 我 们 将 每 个 样本 作为 一 组 聚集 在 一 起 的 词 条 输入 网 络 。 词 向 量 排 列 
在 一 起 组 成 一 个 矩阵 。 这 个 矩阵 形 如 ( 词 向 量 长 度 x 样本 词 个 数 )， 如 图 8-1 所 示 。 

但 在 第 5 章 中 (如 图 8-2 所 示 ), 我 们 就 曾 将 词 向 量 序列 输入 一 个 标准 的 前 馈 网 络 中 , 对 吧 ? 

诚然 , 这 是 一 个 可 行 的 模型 。 当 词 条 以 这 种 方式 传人 一 个 前 馈 网 络 中 时 ， 网络 能 够 捕捉 词 条 
之 间 的 共 现 关系 ， 而 这 正 是 我 们 想 要 的 。 但 不 管 这 些 共 现 的 词 是 被 长 文本 分 开 还 是 彼此 相 邻 ,网 
络 都 会 对 它们 做 出 相同 的 反应 ( 指 系 数 乘 以 权重 后 相 加 )， 并 且 ， 像 CNN 这 样 的 前 馈 网 络 不 能 
很 好 地 处 理 可 变 长 度 的 文本 。 如 果 文 本 超过 网 络 宽度 ， 网 络 就 无 法 处 理 文本 超出 的 部 分 。 





































































































































































































D 前 馈 网 络 通常 指 DNN 和 CNN。 一 一 译 者 注 
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The cat and dog went to the bodega together 
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聚合 和 激活 函数 


Sum)ow x x)) 





输出 层 
(对 于 某 个 给 定 的 过 滤器 ) 


图 8-1 ”使 用 词 炭 入 的 一 维 卷 积 









































前 馈 网 络 的 主要 优点 是 能 够 将 数据 样本 作为 整体 与 其 关联 标签 之 间 的 关系 进行 建 模 。 尽管 文 
本 开头 和 结尾 的 词 与 中 间 的 词 之 间 不 太 可 能 存在 语义 关系 , 但 是 它们 对 输出 的 影响 一 样 。 当 我 们 
考虑 表示 强烈 的 否定 词 和 修饰 语 (形容 词 和 副词 ) 的 词 条 ， 如 “not” 或 者 “good” 时 ,我 们 可 
以 看 到 这 种 文本 所 具备 的 同 质 性 或 者 “影响 的 一 致 性 ”是 如 何 导致 问题 的 。 在 前 馈 网 络 中 ， 否 定 
词 会 影响 句子 中 所 有 词 的 含义 ， 其 至 是 距离 否定 词 可 能 影响 到 的 位 置 较 远 的 那些 词 。 

通过 观察 词 的 滑动 窗口 ,一 维 卷 积 为 我 们 提供 了 一 种 处 理 词 条 间 关 系 的 方法 。 第 7 章 讨论 的 
池 化 层 (pooling layer) 是 专门 设计 用 来 处 理 轻 微 词 序 变化 的 。 在 本 章 中 ， 我 们 将 介绍 一 种 完全 
不 同 的 方法 。 通 过 这 种 方法 , 我 们 将 初步 学 习 神 经 网 络 的 记忆 概念 。 不 同 于 将 语言 视 作 一 个 大 数 
据 块 ， 我 们 可 以 按照 语言 序列 创建 的 时 间 顺 序 ， 逐 个 词 条 地 查看 序列 。 
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The cat and dog went to the bodega together 
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激活 函数 


fsum(w, x x) 














神经 元 输出 











激活 函数 ”ib 测 结果 


Rsum(w; x xi)) 


图 8-2 文本 输入 前 馈 网 络 





8.1 循环 网 络 的 记忆 功能 


当然 , 文档 中 的 词 很 少 是 完全 独立 的 , 它们 的 出 现 会 影响 文档 中 的 其 他 词 或 者 受到 文档 中 其 
他 词 的 影响 : 
The stolen car sped into the arena. 
( 那 辆 偷 来 的 汽车 飞快 地 开 进 了 竞技 场 。) 
The clown car sped into the arena. 
〈《 那 辆 小 丑 车 快速 驶 进 了 性 台 。 
当 读者 读 到 这 两 个 句子 的 末尾 时 可 能 会 产生 两 种 完全 不 同 的 情感 。 这 两 个 句子 的 形容 
词 、 名 词 、 动 词 和 介词 短语 结构 是 完全 相同 的 ， 但 位 于 句 首 的 形容 词 极 大 地 影响 了 读者 后 续 
的 推断 。 
大 家 能 想 出 一 种 对 这 种 关系 进行 建 模 的 方法 吗 ? 一 种 形容 词 不 直接 修饰 或 出 现在 句 首 时 也 
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能 理解 “arena” 甚 至 “sped” 的 隐 含 意义 可 能 会 稍 有 不 同 的 方法 ? RNN 

















使 神经 网 络 能 够 记 住 句子 中 出 现 过 的 词 。 


假如 大 家 能 想到 一 种 方式 “记忆 ”之 前 时 刻 发 生 的 事情 ( 尤其 是 当 我 
们 在 +1 时 刻 时 ,上 时 刻 发 生 的 ), 我 们 就 能 捕获 当 序列 中 某 些 词 条 出 现时 ， 
其 他 词 条 相对 应 会 出 现 的 模式 。 循环 神经 网 络 (recurrent neural net, RNN ) 


我 们 从 图 8-3 可 以 看 到 ， 隐 藏 层 中 的 单个 循环 神经 元 增加 了 一 个 循环 a 





回路 使 1 时 刻 隐藏 层 的 输出 重新 输入 隐藏 层 中 。t 时 刻 的 输出 会 作为 1 时 
刻 的 输入 。 这 个 新 的 输入 会 由 +H 时刻 的 网 络 处 理 来 产生 oH 时 刻 隐藏 层 
的 输出 。 而 el 时 刻 的 输出 接 下 来 又 会 被 重新 作为 +2 时 刻 的 输入 ， 以 此 





yp- 
类 推 。 




















但 是 其 基本 概念 简单 明了 。 对 于 传人 一 般 前 馈 网 络 的 每 个 输入 ， 


时 刻 得 到 的 网 络 输出 会 作为 网 络 的 一 个 额外 输入 ， 与 下 一 份 在 t+1 时 刻 的 
数据 一 起 输入 网 络 。 这 样 ， 我 们 就 可 以 告诉 前 馈 网 络 之 前 发 生 了 什么 和 “ 现 


在 ”正在 发 生 什么 。 
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的 下 标 。 所 以 t= 0 是 文档 中 的 第 一 个 











的 一 个 子 步 ( substep )。 
自始至终 ， 我 们 将 当前 时 刻 标 为 1， 下 一 时 刻 标 为 1+ 1。 








尽管 根据 时 间 变 化 影响 状态 的 思想 一 开始 可 能 会 让 人 感觉 有 些 困惑 ， 


循环 回路 





RITE t 








图 8-3 ”循环 神经 网 络 


重要 说 明 在 本 章 及 下 一 章 , 我 们 谈论 最 多 的 事情 就 是 时 刻 或 时 间 步 (time step )。 这 和 单独 的 数据 
样本 不 是 一 回 事 。 我们 谈论 的 是 一 份 数据 样本 分 解 成 更 小 的 可 以 表示 时 间 变 化 的 块 。 单 个 数据 样本 
态 是 文本 的 某 一 部 分 ， 如 一 小 段 影评 或 者 一 条 Twitter。 和 之 前 一 样 ， 我 们 还 是 会 对 句子 进行 分 词 ， 
但 是 不 同 于 以 往 一 次 性 地 将 所 有 词 条 输入 网 络 ， 我 们 会 在 一 个 时 刻 输 入 一 个 词 条 。 这 和 有 多 个 新 文 
本 的 样本 完全 不 同 。 这 些 词 条 仍然 是 同一 个 标签 的 一 个 数据 样本 的 一 部 分 。 


词 条 ， 而 上 + 1 则 代表 文档 的 下 





一 个 词 条 。 那 些 在 文档 中 依次 出 现 的 词 条 将 会 作为 每 个 时 刻 〈 时 间 步 ) 或 者 词 条 步 的 输入 。 并 且 ， 
词 条 不 一 定 是 某 个 词 ， 单 个 字符 也 可 以 作为 词 条 。 在 某 一 时 刻 输 入 一 个 词 条 是 将 数据 样本 传 入 网 络 



































如 图 8-3 所 示 , 我 们 可 以 看 到 一 个 循环 网 络 : 整个 循环 是 由 一 个 或 者 多 个 神经 元 组 成 的 前 僻 


网 络 层 。 网络 隐藏 层 的 输出 和 普通 的 输出 一 样 , 但 是 它 本 身 会 和 下 一 个 时 刻 的 正常 输入 数据 一 起 
作为 输入 回 传 进 网 络 。 这 个 反馈 表示 为 从 隐藏 层 的 输出 指向 它 的 输入 的 箭头 。 








Net 


里 解 这 个 过 程 的 一 个 更 简单 的 方法 (通常 如 此 显示 ) 是 展开 这 个 网 络 。 图 8-4 从 新 的 角度 ， 








展示 了 网 络 随 时 间 变 量 (1) 展开 两 次 的 图 形 ， 显 示 了 t+ 1 时 刻 和 +t+2 时 刻 的 网 络 层 。 











每 个 时 刻 由 完全 相同 的 神经 网 络 展 开 后 的 一 列 神经 元 表示 。 就 像 在 时 刻 中 查看 每 个 样本 的 神 


经 网 络 的 剧本 或 视频 帧 一 样 。 右 侧 网 络 是 左 侧 网 络 的 未 来 版 本 。 





D 在 金融 、 动 力学 和 反馈 控制 中 ,这 通常 被 称 为 自 回归 滑动 平均 (auto- 





模型 。 


在 一 个 时 刻 (7) 的 隐藏 层 的 输 


regressive moving average, ARMA ) 
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出 被 回 传 到 隐藏 层 以 及 用 作 右 侧 下 一 个 时 刻 (t+ 1 ) 的 输入 数据 ， 如 此 循环 往复 。 此 图 显示 了 这 
一 展开 的 两 次 迭代 ， 因 此 对 于 0、 大 1 A 2, A 3 列 神经 元 。 


RNN “展开 ”的 同一 个 RNN 


=0 1 t=2 








隐藏 层 





图 8-4 ”展开 循环 神经 网 络 





























这 个 可 视 化 视图 中 的 所 有 垂直 路 径 都 是 克隆 的 , 或 者 说 是 完全 相同 神经 元 的 视图 。 它 们 在 时 
间 轴 上 是 单个 网 络 表 示 的 。 当 讨论 信息 在 反 向 传播 算法 中 是 如 何在 网 络 中 前 向 和 反 向 流动 时 , 这 
种 可 视 化 非常 有 用 。 但 是 ， 当 我 们 观察 这 3 个 展开 的 网 络 时 , 请 记 住 它们 都 是 同一 个 网 络 的 不 同 
快照 (snapshot )， 只 有 一 组 权重 。 

我 们 放大 一 个 循环 神经 网 络 展 开 前 的 原始 表示 , 揭示 输入 和 权重 之 间 关 系 。 这 个 循环 网 络 的 
各 个 层 如 图 8-5 和 图 8-6 所 示 。 




















Z] 8-5 t=O 时刻 的 循环 神经 网 络 
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t= 1 时 刻 的 
原始 输入 
t= 1 时 刻 的 输入 
/= 0 时 刻 的 包含 (= 0 时 刻 的 输出 
原始 输出 








图 8-6 ”t= 1 时 刻 的 循环 神经 网 络 











处 于 隐藏 状态 的 每 个 神经 元 都 有 一 组 权重 ,它们 应 用 于 每 个 输入 向 量 的 每 个 元 素 ， 这 和 一 
般 的 前 馈 网 络 一 样 。 但 是 ,现在 我 们 有 一 组 额外 的 可 训练 权重 ,这 些 权 重 应 用 于 前 一 个 时 刻 隐 
藏 层 神经 元 的 输出 。 当 我 们 逐个 词 条 地 输入 序列 时 ， 网 络 可 以 学 习 分 配给 “过 去 ”的 事件 多 少 
权重 或 者 重要 度 。 


提示 序列 中 的 第 一 个 输入 没有 “过 去 ”， 因 此 1=0 时 刻 的 隐藏 状态 从 其 六 1 时 刻 接收 输入 为 0。 
“填充 ”初始 状态 值 的 另 一 种 方法 是 ， 首 先 将 相关 但 分 开 的 样本 一 个 接 一 个 地 传递 到 网 络 中 ， 然 后 
每 个 样本 的 最 终 输 出 用 于 下 一 个 样本 =O 时 刻 的 输入 。 在 8.5.1 节 中 ， 我 们 将 学 习 如 何 使 用 另 一 种 
“填充 ”方法 保留 数据 集中 的 更 多 信息 。 


我 们 回 到 数据 : 假设 我 们 有 一 组 文档 ， 每 篇 文档 都 是 一 个 带 标签 的 样本 。 对 于 每 个 样本 ,不 
同 于 上 一 章 中 一 次 性 地 将 词 向 量 集合 传递 进 卷 积 神经 网 络 〈 如 图 8-7 所 示 )， 这 次 是 从 样本 中 一 
次 取 一 个 词 条 并 将 其 单独 传递 到 我 们 的 RNN 中 ( 如 图 8-8 所 示 )。 

在 循环 神经 网 络 中 , 我 们 传人 第 一 个 词 条 的 词 向 量 并 获得 网 络 的 输出 ,然后 传人 第 二 个 词 条 
的 词 向 量 , 同时 也 传人 第 一 个 词 条 的 输出 ! 然 后 传人 第 三 个 词 条 的 词 向 量 以 及 第 二 个 词 条 的 和 输出， 
以 此 类 推 。 网 络 中 有 前 后 概念 和 因果 关系 ， 以 及 一 些 模糊 的 时 间 概 念 〈《 如 图 8-8 所 示 )。 

现在 我 们 的 网 络 正 在 记 住 一 些 东 西 ! 好 吧 ,， 至 少 有 一 点 儿 像 。 但 还 有 一 些 事情 需要 我 们 弄 明 
白 ， 首 先 ， 反 向 传播 算法 是 如 何在 这 样 的 结构 中 工作 的 ? 
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The clown car sped into the arena 











图 8-7” 传 入 卷 积 网 络 的 数据 











循环 神经 网 络 











图 8-8 ” 传 入 循环 网 络 的 数据 











8.1.1 随时 间 反 向 传播 算法 

到 目前 为 止 ， 我 们 讨论 的 所 有 网 络 都 有 一 个 标签 〈 目标 变量 )， 而 循环 神经 网 络 也 不 例外 。 
但 是 ， 并 不 是 说 每 个 词 条 都 有 一 个 标签 ， 而 是 每 个 样本 中 的 所 有 词 条 只 有 一 个 标签 。 也 就 是 说 ， 
对 于 样本 文档 ， 只 有 一 个 标签 。 
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... and that is enough. 





Isadora Duncan 


提示 “我 们 谈 谈 网 络 在 各 个 时 刻 输入 的 词 条 ， 循 环 神经 网 络 可 以 在 任何 类 型 的 时 间 序 列 数据 上 工作 。 
我 们 的 词 条 可 以 是 离散 的 或 连续 的 : 如 来 自 气象 站 的 读数 、 音 符 、 名 子 中 的 字符 等 ， 由 大 家 决定 。 


这 里 , 我 们 开始 会 在 最 后 一 个 时 刻 查 看 网 络 的 输出 , 并 将 该 输出 与 标签 进行 比较 。 这 就 是 ( 目 
前 ) MPRA (error) 的 定义 ， 而 误差 是 我 们 的 网 络 最 终 想 要 尽量 减 小 的 目标 ， 但 是 这 里 要 介绍 
的 处 理 输出 的 方式 与 前 几 章 的 有 所 不 同 。 对 于 给 定 的 数据 样本 ， 我 们 可 以 将 其 分 成 较 小 的 片段 ， 
这 些 片 段 按 顺序 进入 网 络 。 但 是 ,我 们 并 不 直接 处 理 这 些 由 “ 子 样本 ”产生 的 所 有 输出 ， 而 是 将 
其 反馈 给 网 络 。 

我 们 只 关心 最 终 的 输出 ,至 少 现在 如 此 。 将 序列 中 的 每 个 词 条 输入 网 络 中 ,并 根据 序列 中 最 
后 一 个 时 刻 〈 词 条 ) 的 输出 计算 损失 ， 如 图 8-9 所 示 。 





























error = y_true_label - y_output 


图 8-9 只 有 最 后 的 输出 影响 结果 


对 于 给 定 样本 的 误差 , 我们 需要 确定 哪些 权重 需要 更 新 以 及 需 更 新 多 少 。 在 第 5 章 中 , 我 们 
学 习 了 在 标准 的 网 络 中 如 何 反 向 传播 误差 , 并 且 我 们 知道 对 每 个 权重 校正 多 少 取决 于 该 权重 对 误 
差 的 贡献 程度 。 我 们 可 以 输入 样本 序列 中 的 各 个 词 条 , 并 根据 之 前 时 刻 的 网 络 输出 计算 误差 , 但 
是 这 也 正 是 不 能 在 时 间 序 列 上 应 用 反 向 传播 算法 的 原因 。 

可 以 这 样 来 考虑 : 将 整个 过 程 视 为 基于 时 间 的 。 我 们 在 每 个 时 刻 取 一 个 词 条 ， 从 t= 0 处 的 
第 一 个 词 条 开始 ,将 它 输 入 当前 的 隐藏 层 神经 元 一 一 图 8-9 中 的 下 一 列 。 当 我 们 这 样 做 时 ， 网 络 
会 展开 并 揭示 下 一 列 ， 为 序列 中 的 下 一 个 词 条 做 好 准备 。 隐 藏 层 的 神经 元 不 断 展开 ， 一 次 一 个 ， 
就 像 是 音乐 盒 或 钢琴 的 演奏 。 当 我 们 到 达 终点 ,在 输入 样本 的 所 有 片段 之 后 ,网络 将 停止 展开 并 
且 我 们 将 获得 目标 变量 的 最 终 输出 标签 。 我 们 可 以 使 用 该 输出 来 计算 误差 并 调整 权重 。 这 样 ,， 我 
们 就 完成 了 这 个 展开 网 络 计算 图 的 所 有 环节 。 

此 时 , 我 们 可 以 将 整个 输入 视 为 静态 的 。 通过 计算 图 我 们 可 以 看 到 各 个 神经 元 分 别 送 入 了 哪 
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个 输入 。 一 旦 知道 各 个 神经 元 是 如 何 工作 的 ,我 们 就 可 以 循 着 之 前 的 方法 ， 像 在 标准 前 馈 网 络 中 
做 的 那样 运用 反 向 传播 。 

我 们 将 使 用 链 式 法 则 反 向 传播 到 前 一 层 。 但是, 不 同 于 传播 到 上 一 层 , 这 里 是 传播 到 过 去 的 
层 ， 就 好 像 每 个 展开 的 网 络 版 本 都 不 同 ( 如 图 8-10 所 示 )。 数 学 公式 是 一 样 的 。 















































error = y_true_label - y_output 





8-10 ”随时 间 反 向 传播 

我 们 将 反 向 传播 在 最 后 一 个 时 刻 获 得 的 误差 。 对 于 每 个 “ 较 早 ”的 时 刻 ， 都 要 执行 更 新 时 刻 
的 梯度 。 对 于 该 样本 , 在 计算 了 所 有 词 条 的 梯度 之 后 , 我 们 将 聚合 这 些 校 正 值 并 将 它们 应 用 于 整 
套 权重 的 更 新 ， 直 至 回 到 时 刻 += 0。 
简要 回顾 


m 将 每 个 数据 样本 切 分 为 词 条 。 

m 将 每 个 词 条 输入 前 馈 网 络 中 。 

m 将 每 个 时 刻 的 输出 以 及 下 一 个 时 刻 的 输入 作为 同一 层 的 输入 。 
m 

m 
































获取 最 后 一 个 时 刻 的 输出 并 将 其 与 标签 进行 比较 。 
在 整个 计算 图 中 反 向 传播 误差 .一直 回 到 第 一 个 时 刻 1=0 的 输入 。 








8.1.2 不 同时 刻 的 权重 更 新 


我 们 已 经 将 看 似 奇 怪 的 循环 神经 网 络 转换 为 类 似 于 标准 前 馈 网 络 的 东西 ， 这 样 可 以 使 权重 更 新 
变 得 相当 简单 。 但 是 这 里 有 一 个 问题 。 更 新 过 程 中 丈 手 的 部 分 是 我 们 正在 更 新 的 权重 不 是 神经 网 络 
的 不 同 分 支 , 每 个 分 支 代表 着 位 于 不 同时 刻 的 相同 网 络 。 各 个 时 刻 的 权重 是 相同 的 ( 如 图 8-10 所 示 )。 

一 个 简单 的 解决 方案 是 计算 各 个 时 刻 的 权重 校正 值 但 不 立即 更 新 。 在 前 馈 网 络 中 , 一 旦 为 输 
入 样本 计算 了 所 有 梯度 ,所 有 权重 的 校正 值 就 会 被 计算 。 这 对 循环 神经 网 络 同样 适用 , 但 对 该 输 
入 样本 我 们 必须 一 直 保 留 这 些 校正 值 ， 直 至 回 到 时 刻 t= 0. 
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梯度 计算 需要 基于 权重 对 误差 的 贡献 量 。 这 里 是 令 人 费解 的 部 分 : 在 时 刻 :一 个 权重 在 初次 
计算 时 对 误差 产生 了 贡献 , 而 该 权重 在 时 刻 :+t 会 接收 到 不 同 的 输入 , 因此 之 后 对 误差 的 贡献 量 
b 会 有 所 不 同 。 

我 们 可 以 计算 出 权重 在 每 个 时 刻 的 不 同 校正 值 ( 就 像 它们 在 气泡 中 一 样 )， 然 后 聚合 所 有 校 
正 值 并 在 学 习 阶 段 的 最 后 一 步 将 其 应 用 于 隐藏 层 的 各 个 权重 。 


提示 在 所 有 这 些 示例 中 ,我 们 前 向 传播 传 入 单个 训练 样本 ,然后 反 向 传播 误差 。 与 所 有 神经 网 络 
一 样 ， 这 种 前 向 传递 可 以 依据 每 个 训练 样本 进行 ， 也 可 以 分 批 进行 。 事实 证明， 批 处 理 除 加 速 之 外 
还 有 其 他 好 处 。 但 现在 ， 请 仅 从 单个 数据 样本 、 单 个 句子 或 文档 来 考虑 这 些 过 程 。 


这 似乎 很 神奇 。 对 于 单个 数据 样本 ， 随 时 间 反 向 传播 算法 中 的 单个 权重 在 一 个 时 刻 t 可 能 会 在 一 
个 方向 上 进行 调整 《取决 于 其 在 时 刻 :对 输入 的 反应 ) 然后 在 时 刻 1-1 在 男 一 个 方向 上 进行 调整 ( 取 
决 于 其 在 时 刻 1 一 1 对 输入 的 反应 )! 但 是 请 记 住 , 不 管 中 间 步骤 有 多 复杂 , 神经 网 络 一 般 都 是 通过 最 小 
化 损失 函数 来 工作 的 ， 所 以 总 体 来 说 ， 它 会 对 这 个 复杂 的 函数 进行 优化 。 当 对 每 个 数据 样本 应 用 一 次 
权重 更 新 时 ， 网 络 将 确定 假设 它 是 收敛 的 ) 对 该 输入 样本 来 说 最 适合 处 理 此 任务 的 神经 元 的 权重 。 


至 关 重要 的 前 期 输出 


有 时 ， 我 们 也 会 关心 在 各 个 中 间 时 刻 生成 的 整个 序列 。 在 第 9 章 中 ,我们 将 看 到 一 些 示例 ， 
它们 展示 了 给 定时 刻 1 的 输出 与 最 终 时 刻 的 输出 同样 重要 。 图 8-11 展示 了 在 任意 给 定时 刻 捕获 误 
差 的 路 径 ， 并 在 反 向 传播 期 间 使 用 该 误差 反 向 调整 网 络 的 所 有 权重 。 










































































error = sum([y_true_label[i] - yl[i] for i in range(6)]) 











图 8-11 所 有 的 输出 都 很 重要 























这 个 过 程 类 似 于 在 n 个 时 刻 执行 普通 的 随时 间 反 向 传播 。 在 本 例 中 , 我 们 现在 正在 同时 从 多 
个 源 反 向 传播 误差 。 但 是 正如 第 一 个 例子 一 样 ,权重 的 校正 值 是 累积 的 , 我 们 从 最 后 一 个 时 刻 一 
直 反 向 传播 到 初始 时 刻 ， 并 且 对 每 个 权重 计算 要 更 新 的 总 数 ， 然 后 对 于 在 倒数 第 二 个 时 刻 计算 出 
的 误差 进行 同样 的 处 理 ， 并 将 反 向 进行 处 理 直 到 时 刻 := 0 将 所 有 的 校正 值 加 起 来 。 重 复 这 个 过 程 ， 
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直到 回 到 时 刻 := 0， 然 后 继续 反 向 传播 ， 此 时 要 聚合 的 值 只 有 一 个 。 接 着 ,我 们 可 以 将 更 新 的 总 
和 一 次 性 地 应 用 于 相关 隐藏 层 的 所 有 权重 。 

在 图 8-12 中 ,我们 可 以 看 到 误差 从 每 个 输出 反 向 传播 到 上 = 0， 并 在 最 后 对 权重 应 用 更 新 之 
前 进行 聚合 。 这 是 本 节 中 最 重要 的 内 容 。 与 标准 的 前 饥 网 络 一 样 ， 对 于 该 输入 〈 或 一 组 输入 )， 
只 有 在 计算 了 整个 反 向 传播 步 又 中 各 权重 需要 更 新 的 校正 值 之 后 , 我 们 才 会 更 新 权重 值 。 在 循环 
神经 网 络 的 情况 下 ， 这 种 反 向 传播 包含 了 所 有 时 刻 到 c= 0 的 更 新 。 






































error = sum([y_true_label[i] - y[i] for i in range(6)]) 





图 8-12 多 输出 和 随时 间 反 向 传播 


较 早 地 更 新 权重 会 较 早 地 “污染 ” 反 向 传播 中 的 梯度 计算 。 请 记 住 梯度 是 根据 特定 的 权重 计 
算 的 ， 所 以 如 果 要 提前 更 新 它 ， 例 如 在 时 刻 ¢, 那么 当 计算 时 刻 1 一 1 的 梯度 时 ， 权 重 的 值 ( 记 住 
它 在 网 络 中 的 权重 位 置 是 相同 的 ) 会 发 生变 化 。 如 果 根 据 时 刻 1 一 1 的 输入 计算 梯度 ,计算 将 是 
错误 的 。 我 们 将 因为 一 个 权重 没有 对 误差 做 出 的 贡献 而 惩罚 〈 或 奖励 ) 它 ! 
































8.1.3 简要 回顾 


现在 我 们 走 到 哪 一 步 了 ? 我 们 已 经 将 每 个 数据 样本 分 割 成 词 条 , 然后 一 个 接 一 个 地 把 它们 输 
入 一 个 前 馈 网 络 。 对 于 每 个 词 条 , 不 仅 要 输入 词 条 本 身 , 还 要 输入 前 一 个 时 刻 的 输出 。 在 时 刻 0， 
我 们 输入 初始 词 条 和 0， 后 者 是 一 个 0 向 量 ， 这 是 因为 之 前 没有 输出 。 我 们 将 比较 最 终 词 条 的 网 
络 输出 与 预期 标签 之 间 的 差异 以 获得 误差 , 然后 随时 间 反 向 传播 该 误差 至 网 络 的 每 个 权重 ,最 后 
我 们 聚合 计算 出 的 校正 值 ， 并 将 它们 同时 应 用 于 网 络 。 

我 们 现在 有 一 个 前 馈 网 络 , 它 有 一 些 类 似 于 时 间 的 概念 和 一 个 能 够 保存 发 生 在 时 间 轴 上 的 记 
忆 的 基本 工具 。 

















8.1.4 ”难点 
尽管 一 个 循环 神经 网 络 需 要 学 习 的 权重 ( 参数 ) 可 能 相对 较 少 , 但 是 从 图 8-12 中 可 以 看 出 ， 
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训练 一 个 循环 神经 网 络 的 代价 高 晶 ， 尤 其 是 对 于 较 长 的 序列 (如 10 个 词 条 )。 我 们 拥有 的 词 条 
越 多 ， 每 个 时 刻 误差 必须 反 疝 传播 的 时 间 越 长 。 而 对 于 每 一 时 刻 ， 都 有 更 多 的 导数 需要 计算 。 
虽然 循环 神经 网 络 的 效果 并 不 比 其 他 网 络 的 效果 差 , 但 是 请 准备 好 用 计算 机 的 排 气 扇 给 房子 供 
BENE 

HOF AT AER ATR, 我 们 已 经 给 了 神经 网 络 一 个 基本 的 记忆 能 力 , 但 是 当 它们 ( 指 网 络 
时 刻 ) AR, 更 多 的 麻烦 也 出 现 了 (一 个 也 可 以 在 常规 的 前 馈 网 络 中 看 到 的 问题 )。 梯 度 消失 问 
题 (vanishing gradient problem ) 有 一 个 推论 : 梯度 爆炸 问题 (exploding gradient problem )， 它 们 
的 思想 是 ， 随 着 网 络 变 得 更 深 ( 更 多 层 ) 时 ,误差 信 号 会 随 着 梯度 的 每 一 次 计算 消散 或 增长 。 

循环 神经 网 络 也 面临 着 同样 的 问题 , 因为 在 数学 上 , 时 刻 的 每 一 次 后 退 都 相当 于 将 一 个 误差 
反 向 传播 到 前 馈 网 络 的 前 一 层 。 但 是 这 里 更 糟 ! 尽管 由 于 这 个 原因 , 大 多 数 前 馈 网 络 往 往 只 有 几 
层 深 , 但 是 当 我 们 要 处 理 的 是 5 个 、10 个 ， 其 至 数 百 个 词 条 的 序列 时 ， 要 深入 到 100 层 网 络 的 
底层 还 是 很 困难 的 。 不 过 ,一 个 让 我 们 可 以 继续 工作 、 减轻 压力 的 因素 在 于 : 尽管 梯度 可 能 会 在 
计算 最 后 一 次 权重 集 的 过 程 中 消失 或 爆炸 , 但 是 实际 上 我 们 只 更 新 了 一 次 权重 集 , 并 且 每 个 时 刻 
的 权重 集 都 是 相同 的 。 仍然 有 些 信息 会 传递 出 去 , 虽然 它 可 能 不 是 我 们 认为 所 能 创建 的 理想 记忆 
状态 ,但 是 不 必 害 怕 ， 研 究 人 员 正 在 研究 这 个 问题 ， 对 于 这 个 挑战 在 下 一 章 我 们 会 有 一 些 答案 。 

听 了 如 此 多 令 人 郁闷 的 坏 消息 ， 现 在 我 们 来 看 一 些 魔法 吧 。 




































































8.1.5 利用 Keras 实现 循环 神经 网 络 


我 们 将 从 与 上 一 章 中 所 使 用 的 相同 的 数据 集 和 预 处 理 开 始 。 首 先 , 加载 数 据 集 ， 获 取 标签 并 
随机 打 乱 样本 ， 然 后 对 文档 分 词 并 使 用 谷歌 的 Word2vec 模型 使 其 向 量化 ， 接 下 来 ， 获 取 标 签 ， 
最 后 我 们 按 80/20 的 比例 将 原始 数据 分 成 训练 集 和 测试 集 。 

首先 ， 我 们 需要 导入 数据 处 理 和 循环 神经 网 络 训练 所 需 的 所 有 模块 ， 如 代码 清单 8-1 所 示 。 


代码 清单 8-1 导入 所 有 模块 


>>> import glob 








>>> import os 

>>> from random import shuffle 

>>> from nltk.tokenize import TreebankWordTokenizer 
>>> from nlpia.loaders import get_data 

>>> word vectors = get_data('wv') 


然后 , 我 们 可 以 构建 数据 预 处 理 模 块 , 它 能 对 数据 进行 训练 前 的 处 理 , 如 代码 清单 8-2 所 示 。 


代码 清单 8-2 数据 预 处 理 模块 


>>> def pre process data (filepath): 


Load pos and neg examples from separate dirs then shuffle them 
together. 
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positive_path = os.path.join(filepath, 'pos') 
negative_path = os.path.join(filepath, 'neg') 
pos_label = 1 
neg_label = 0 
dataset = [] 
for filename in glob.glob(os.path.join(positive_ path, '*.txt')): 
with open (filename, 'r') as f: 
dataset.append((pos_label, f.read())) 
for filename in glob.glob(os.path.join(negative_path, '*.txt')): 
with open (filename, 'r') as f: 
dataset.append((neg_label, f.read())) 
shuffle (dataset) 
return dataset 


与 之 前 一 样 ， 我 们 可 以 将 数据 分 词 和 向 量化 的 方法 写 在 一 个 函数 中 ， 如 代码 清单 8-3 所 示 。 


代码 清单 8-3 ”数据 分 词 和 向 量化 





>>> def tokenize and vectorize (dataset): 
tokenizer = TreebankWordTokenizer () 
vectorized_data = [] 
for sample in dataset: 
tokens = tokenizer.tokenize(sample[1]) 
sample vecs = [] 
for token in tokens: 
try: 
sample_vecs.append (word_vectors[token] ) 
except KeyError: 


ass < ia 
ek 在 谷歌 w2v 词汇 表 中 没 
vectorized_data.append(sample_vecs) 有 匹配 的 词 条 
return vectorized data JERAR 


并 且 我 们 需要 将 目标 变量 提取 (解压 ) 到 单独 的 (但 对 应 的 ) 样本 中 , 如 代码 清单 8-4 所 示 。 





代码 清单 8-4 ”目标 变量 解压 缩 


>>> def collect_expected (dataset): 
""" Peel off the target values from the dataset """ 
expected = [] 
for sample in dataset: 
expected.append(sample[0]) 
return expected 


eee 写 好 了 所 有 的 预 处 理 函 数 ， 就 需要 在 数据 上 运行 它们 ， 如 代码 清单 8-5 所 示 。 


代码 清单 8-5 ”加 载 和 准备 数 


>>> dataset = pre process data('./aclimdb/train') 

>>> vectorized data = tokenize and vectorize (dataset) 按 80/20 的 比例 划分 为 训练 集 
>>> expected = collect expected (dataset) 和 测试 集 ( 不 用 混 洗 ) 

>>> split point = int(len(vectorized data) * .8) 

>>> x train = vectorized_data[:split_point] 
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>>> y_train = expected[:split_point] 
>>> x_test vectorized_data[split_point:] 
>>> y_test expected[split_point:] 


我 们 将 为 这 个 模型 使 用 相同 的 超 参数 : 每 个 样本 使 用 400 个 词 条 ， 批 大 小 为 32。 词 向 量 是 
300 维 ， 我 们 将 让 它 运 行 2 个 周期 。 具 体 做 法 参见 代码 清单 8-6。 


代码 清单 8-6 ”初始 化 网 络 参数 


>>> maxlen = 400 

>>> batch_size = 32 

>>> embedding_dims = 300 
>>> epochs = 2 


接 下 来 ,我 们 需要 再 次 填充 和 截断 样本 。 通 常 我 们 不 需要 对 循环 神经 网 络 使 用 填充 或 截断 ， 
因为 它们 可 以 处 理 任意 长 度 的 输入 序列 。 但 是 , 在 接 下 来 的 几 个 步骤 中 , 我 们 将 看 到 所 使 用 的 模 
型 要 求 输入 指定 长 度 的 序列 。 具 体 做 法 参见 代码 清单 8-7。 


代码 清单 8-7 ”加 载 测试 数据 和 训练 数据 





>>> import numpy as np 


>>> x_train = pad_trunc(x_train, maxlen) 
>>> x_test = pad_trunc(x_test, maxlen) 


np.reshape(x_train, (len(x_train), maxlen, embedding_dims) ) 
np.array(y_train) 

np.reshape(x_test, (len(x_test), maxlen, embedding_dims) ) 
np.array(y_test) 


>>> x_train 
>>> y_train 
>>> x_test 
>>> y_test 


现在 我 们 已 经 获得 了 数据 ,是 时 候 构建 模型 了 。 我 们 将 再 次 从 Keras 的 一 个 标准 的 分 层 模型 
Sequential() (分 层 的 ) 模型 开始 ， 如 代码 清单 8-8 所 示 。 





代码 清单 8-8 初始 化 一 个 空 的 Keras 网 络 





>>> from keras.models import Sequential 

>>> from keras.layers import Dense, Dropout, Flatten, SimpleRNN 
>>> num_neurons = 50 

>>> model = Sequential () 


然后 ， 和 之 前 一 样 ， 神 奇 的 Keras 处 理 了 组 装 神经 网 络 的 各 个 复杂 环节 : 我 们 只 需要 将 想 要 
的 循环 层 添加 到 我 们 的 网 络 中 ， 如 代码 清单 8-9 所 示 。 





代码 清单 8-9 添加 一 个 循环 层 


>>> model.add(SimpleRNN ( 
num_neurons, return_sequences=True, 
input_shape=(maxlen, embedding_dims) ) ) 


现在 , 基础 模块 已 经 搭建 完毕 , 可 以 接收 各 个 输入 并 将 其 传递 到 一 个 简单 的 循环 神经 网 络 中 
(不 简单 的 版 本 将 在 下 一 章 介绍 ) 对 于 每 个 词 条 , 将 它们 的 输出 集合 到 一 个 向 量 中 。 因 为 我 们 的 
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序列 有 400 个 词 条 长 ， 并 且 使 用 了 50 个 隐藏 层 神经 元 ， 所 以 这 一 层 的 输出 将 是 一 个 400 个 元 素 
的 向 量 ， 其 中 每 个 元 素 都 是 一 个 50 个 元 素 的 向 量 ， 每 个 神经 元 对 应 着 一 个 输出 。 

注意 这 里 的 关键 字 参 数 return_sequences。 它 会 告诉 网 络 每 个 时 刻 都 要 返回 网 络 输出 ， 
因此 有 400 个 向 量 ， 每 个 向 量 为 50 维 。 如 果 return sequences 被 设置 为 False (Keras 的 
默认 行为 ) 那么 只 会 返回 最 后 一 个 时 刻 的 50 维 向 量 。 

在 本 例 中 ，50 个 神经 元 的 选择 是 任意 的 ， 主 要 是 为 了 减少 计算 时 间 。 我 们 用 这 个 数字 做 实 
w, 来 看 看 它 是 如 何 影响 计算 时 间 和 模型 精确 率 的 。 

提示 “一 个 好 的 经 验 法 则 是 尽量 使 模型 不 要 比 训练 的 数据 更 复杂 。 说 起 来 容易 做 起 来 难 ， 但 是 这 个 

想法 为 我 们 在 数据 集 上 做 实验 时 的 调 参 提 供 了 一 个 基本 法 则 。 较 复杂 的 模型 对 训练 数据 过 拟 合 ， 泛 

化 效果 不 佳 ; 过 于 简单 的 模型 对 训练 数据 欠 拟 合 ， 而 且 对 于 新 数据 也 没有 太 多 有 意义 的 内 容 。 我 们 

会 看 到 这 个 讨论 被 称 为 偏差 与 方差 的 权衡 。 对 数据 过 拟 合 的 模型 具有 高 方差 和 低 偏差 ， 而 欠 拟 合 的 

模型 恰恰 相反 : 低 方差 和 高 偏差 ， 它 会 用 一 到 的 方式 给 出 管 案 ， 结 果 把 一 切 都 搞 错 了 。 


注意 ,我们 再 次 截断 并 填充 了 数据 ， 这 样 做 是 为 了 与 上 一 章 的 CNN 例子 作 比 较 。 但 是 当 使 用 
循环 神经 网 络 时 ， 通 常 不 需要 使 用 截断 和 填充 。 我 们 可 以 提供 不 同 长 度 的 训练 数据 ， 并 展开 网 络 ， 
直到 输入 结束 , Keras 对 此 会 自动 处 理 。 问题 是 , 循环 层 的 输出 长 度 会 随 着 输入 时 刻 的 变化 而 变化 。 
4 个 词 条 的 输入 将 输出 4 个 元 素 长 的 序列 。100 个 词 条 的 序列 将 产生 100 个 元 素 长 的 序列 。 如 果 我 
们 需要 把 它 传 递 到 另 一 个 层 , 即 一 个 期 望 输入 的 维度 统一 的 层 , 那么 上 述 不 等 长 的 结果 就 会 出 现 问 
题 。 但 在 某 些 情况 下 ,这 种 不 等 长 的 序列 输入 也 是 可 以 接受 的 ,甚至 本 来 就 期 望 如 此 。 但 是 还 是 先 
回 到 我 们 这 里 的 分 类 器 ， 参 见 代 码 清单 8-10。 

































































代码 清单 8-10 ”添加 一 个 dropout 层 


>>> model.add (Dropout (.2) ) 


>>> model.add(Flatten() ) 
>>> model.add(Dense(1l, activation='sigmoid') ) 


我 们 要 求 上 述 简单 的 RNN 返回 完整 的 序列 ， 但 是 为 了 防止 过 拟 合 ， 我 们 添加 了 一 个 Dropout 
层 ， 在 每 个 输入 样本 上 随机 选择 输入 ， 使 这 些 输入 有 20% 的 概率 为 零 ， 最 后 再 添加 一 个 分 类 器 。 
在 这 种 情况 下 ， 我 们 只 有 一 个 类 : “Yes - Positive Sentiment - 1” 或 “No - Negative Sentiment - 0”, 
所 以 我 们 选择 只 有 单个 神经 元 (Dense (1) ) 的 层 并 使 用 sigmoid 激活 函数 。 但 是 该 稠密 层 需要 输 
人 一 个 由 个 元 素 组 成 的 扁平 的 问 量 ( 每 个 元 素 都 是 一 个 浮 点 数 )。 SimpleRNN 输出 的 是 一 个 400 
个 元 素 长 的 张 量 ， 张 量 中 的 每 个 元 素 都 是 50 个 元 素 长 。 但 是 前 馈 网 络 并 不 关心 元 素 的 顺序 而 只 关 
心 输 入 是 否 符合 网 络 的 需要 ， 所 以 我 们 使 用 Keras 提供 的 一 个 非常 方便 的 网 络 层 Flatten () 将 输 
ASK 400 x 50 的 张 量 扁平 化 为 一 个 长 度 为 20 000 个 元 素 的 向 量 。 这 就 是 我 们 要 传递 到 最 后 一 层 用 
来 做 分 类 的 向 量 。 KRE, Flatten 层 是 一 个 映射 。 这 意味 着 误差 将 从 最 后 一 层 反 向 传播 回 RNN 
层 的 输出 ， 而 如 前 所 述 ， 这 些 反 向 传播 的 误差 之 后 将 在 输出 的 合适 点 随时 间 反 向 传播 。 

将 循环 神经 网 络 层 生成 的 “思想 向 量 ” 传 递 到 前 馈 网 络 中 ， 将 不 再 保留 我 们 努力 试图 想 要 包含 
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的 输入 顺序 的 关系 。 但 重要 的 是 我 们 注意 到 ， 与 词 条 的 序列 相关 的 “学 习 ” 发 生 在 RNN 层 本 身 ; 通 
过 随时 间 反 向 传播 过 程 中 误差 的 聚合 将 这 种 关系 编码 进 了 网 络 中 ,并 将 其 表示 为 “思想 向 量 ”本 身 。 
我 们 基于 思想 向 量 作 出 的 决策 ， 通 过 分 类 带 ， 就 特定 的 分 类 问题 向 思想 向 量 的 “质量 ”提供 反馈 。 
我 们 可 以 “评估 ”我 们 的 思想 向 量 ， 并 以 其 他 方式 使 用 RNN 层 ， 更 多 内 容 将 在 下 一 章 讨 论 。( 大 家 
能 感觉 到 我 们 提 到 下 一 章 时 的 兴奋 吗 ? ) 坚持 下 去 ， 这 些 知 识 对 于 理解 下 一 部 分 是 至 关 重 要 的 。 


82 ”整合 各 个 部 分 


就 像 在 上 一 章 使 用 卷 积 神经 网 络 做 的 那样 来 编译 循环 神经 网 络 模型 。 

Keras 还 附带 了 一 些 工具 ,如 model .summary () ， 用 于 审 察 模型 内 部 情况 。 随 着 模型 变 得 
越 来 越 复 杂 ， 我 们 需要 经 常 使 用 model . summary () ， 否 则 在 调整 超 参 数 时 跟踪 模型 内 部 的 内 
容 的 变化 情况 会 变 得 非常 费力 。 如 果 我 们 将 模型 的 摘要 以 及 验证 的 测试 结果 记录 在 超 参数 调 优 日 
EP, 那 将 会 非常 有 趣 。 我 们 甚至 可 以 实现 大 部 分 工作 的 自动 化 , 将 一 些 枯燥 的 记录 工作 交 给 机 
器 来 完成 。 具 体 做 法 参见 代码 清单 8-11。 


代码 清单 8-11 编译 循环 神经 网 络 


>>> model.compile('rmsprop', 'binary_crossentropy', metrics=['accuracy']) 
Using TensorFlow backend. 
>>> model.summary () 
















































































Layer (type) Output Shape Param # 
simple rnn1 (SimpleRNN) (None, 400, 50) A 
dropout 1 (Dropout) (None, 400, 50) 0 
flatten 1 (Flatten) (None, 20000) 0 

dense 1 (Dense) (None, 1) 20001 


Total params: 37,551.0 
Trainable params: 37,551.0 
Non-trainable params: 0.0 





None 

这 里 我 们 暂停 一 下 ， 看 看 正在 处 理 的 参数 的 数量 。 这 个 循环 神经 网 络 相 对 较 小 ,但 是 请 注意 ， 
我 们 正在 学 习 37551 个 参数 ! 这 对 20 000 个 训练 样本 (不 要 与 最 后 一 层 中 的 20 000 个 元 素 混淆 一 一 
这 只 是 巧合 ) 来 说 需要 更 新 的 权重 太 多 了 。 我 们 看 看 这 些 数字 ， 思 考 一 下 它们 具体 来 自 哪 里 。 

在 SimpleRNN 层 中 ， 我 们 需要 50 个 神经 元 。 每 个 神经 元 都 将 接收 输入 〈 并 对 每 个 输入 样 






































D 如 果 大 家 决定 主动 选择 超 参数 ， 请 不 要 过 于 坚持 网 格 搜 索 ， 随 机 搜索 要 有 效 得 多 。 如 果真 的 想 研 究 它 ， 
大 家 可 以 尝试 贝 叶 斯 优化 。 超 参数 优化 器 每 隔 几 个 小 时 会 尝试 一 次 ,因此 大 家 不 能 仅仅 使 用 旧 的 超 参数 
调 优 模型 ( 但 愿 不 要 使 用 循环 网 络 ! ) 



































8.3 自我 学 习 231 











本 应 用 一 个 权重 )。 在 一 个 循环 神经 网 络 中 ， 每 个 时 刻 的 输入 都 是 一 个 词 条 。 在 本 例 中 ， 词 条 
词 向 量 表 示 ， 每 个 向 量 有 300 个 元 素 长 (300 维 )。 每 个 神经 元 需要 300 个 权重 : 


50 x 300 = 15 000 


每 个 神经 元 也 有 一 个 偏 置 项 ， 它 的 输入 值 总 是 1 (这 就 是 让 它 成 为 偏 置 的 原因 )， 所 以 可 训 
练 的 权重 : 












































15 000 + 50 ( 偏 置 权重 ) = 15 050 


第 一 层 第 一 个 时 刻 的 权重 数量 为 15 050。 现 在 这 50 个 神经 元 中 的 每 一 个 都 将 把 它 的 输出 输 
人 和 人 网络 的 下 一 时 刻 。 每 个 神经 元 接受 完整 的 输入 向 量 和 完整 的 输出 向 量 。 在 第 一 个 时 刻 ， 还 不 存 
在 来 自 输出 的 反馈 ， 所 以 它 的 初始 值 是 0 向 量 ， 它 的 长 度 与 输出 向 量 的 长 度 相同 。 

隐藏 层 中 的 每 个 神经 元 现在 都 有 每 个 词 条 租 入 维度 的 权重 , 即 300 个 权重 。 每 个 神经 元 也 有 
1 个 偏 置 。 在 前 一 个 时 刻 (或 第 一 个 1= 0 时 刻 的 0 ) 中 ,输出 结果 有 50 个 权重 。 这 50 个 权重 是 
循环 神经 网 络 中 的 关键 反馈 步骤 。 这 给 了 我 们 


300 + 1+50=351 















































351 x 50 个 神经 元 得 到 : 
351 x 50=17 550 


17 550 个 需要 训练 的 参数 。 我 们 展开 这 个 网 络 400 次 (考虑 到 梯度 消失 相关 的 问题 ， 这 可 
能 太 多 了 ， 但 是 即使 这 样 ， 这 个 网 络 也 是 非常 有 效 的 )。 然而 ， 这 17 550 个 参数 在 每 次 展开 时 都 
是 相同 的 ,并且 在 所 有 的 反 向 传播 计算 完毕 之 前 ,它们 都 是 相同 的 。 对 权重 的 更 新 发 生 在 前 向 传 
播 和 后 续 反 向 传播 序列 的 末尾 。 虽 然 我 们 给 反 疝 传播 算法 增加 了 复杂 度 , 但 是 我 们 也 因此 逃 过 一 
H: 没有 去 训练 一 个 参数 甚至 超过 700 (17 550 x 400 ) 个 的 网 络 。 如 果 每 个 展开 的 网 络 都 有 
自己 的 权重 集 ， 那 么 情况 就 会 如 此 糟糕 。 

总 体 来 说 ,最 后 一 层 有 20 001 个 参数 需要 训练 ， 这 计算 起 来 相对 简单 。 在 Flatten () 层 之 后 ， 
输入 是 一 个 20 000 维 的 向 量 加 上 一 个 偏 置 输入 ， 因 为 在 输出 层 只 有 一 个 神经 元 ， 所 以 参数 的 总 数 是 
(20 000 个 输入 元 素 + 1 个 偏 置 单元 ) x 1 个 神经 元 = 20 001 个 参数 

这 些 数字 在 计算 时 间 上 可 能 会 有 一 点 误导 ,因为 随时 间 反 向 传播 算法 有 太 多 额外 的 步骤 (与 
卷 积 神经 网 络 或 标准 前 馈 网 络 相 比 )。 计 算 时 间 不 应 该 成 为 使 用 它 的 主要 壁垒 。 循 环 网 络 在 记忆 
能 力 方面 的 特殊 优势 是 进入 包括 NLP 或 所 有 其 他 序列 数据 的 更 大 世界 的 起 点 ， 我 们 将 在 下 一 章 
看 到 这 一 点 ， 但 是 现在 请 回 到 我 们 的 分 类 器 上 来 。 
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好 了 ， 现 在 是 时 候 训练 这 个 循环 网 络 了 ， 我 们 在 前 一 节 中 已 经 仔细 组 装 好 了 。 与 其 他 Keras 
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模型 一 样 ， 我 们 需要 向 . fit () 方 法 传递 数据 ,并 告诉 它 我 们 希望 训练 多 少 个 训练 周期 (epoch ), 
如 代码 清单 8-12 所 示 。 


代码 清单 8-12 ”训练 并 保存 模型 





>>> model.fit(x train, y train, 
batch size=batch size, 
epochs=epochs, 


validation data=(x test, y test)) 

Train on 20000 samples, validate on 5000 samples 

Epoch 1/2 

20000/20000 [==============================] - 215s - loss: 0.5723 - 
acc: 0.7138 - val_loss: 0.5011 - val_acc: 0.7676 

Epoch 2/2 

20000/20000 [==============================] - 183s - loss: 0.4196 - 
acc: 0.8144 - val_loss: 0.4763 - val_acc: 0.7820 





>>> model_structure = model.to_json() 

>>> with open("simplernn_modell.json", "w") as json_file: 
ois json_file.write (model_structure) 

>>> model.save_weights ("simplernn_weights1.h5") 

Model saved. 


结果 还 不 错 ， 但 也 没有 什么 值得 大 书 特 书 的 东西 。 那 么 我 们 可 以 在 哪里 进行 改进 呢 ? 
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本 书 中 列 出 的 所 有 模型 都 可 以 根据 我 们 的 数据 和 样本 进行 调整 ， 它 们 都 有 各 自 的 优势 和 相应 
的 利弊 权衡 方式 。 寻 找 最 优 超 参 数 集 通常 是 一 个 棘手 的 问题 。 但 是 人 类 的 直觉 和 经 验 至 少 可 以 为 我 
们 提供 解决 问题 的 方法 。 让 我 们 看 最 后 一 个 例子 。 我 们 做 了 哪些 选择 ? 具体 做 法 参见 代码 清单 8-13。 


代码 清单 8-13 ”模型 参数 









































观察 数据 后 设置 的 任意 输 预 训练 的 Word2vec 
>>> maxlen = 400 入 序列 的 最 大 长 度 模型 维度 
>>> embedding_dims = 300 
b h_si = 32 s ` 
Cop ea ; eae 通过 ( 并 聚合 
= 误差 PEAS FRO 
>>> num_neurons 50 < pewa 全 = 





maxlen 参数 设置 可 能 是 这 串 参 数 中 最 大 的 问题 。 训 练 集 在 样本 长 度 上 变化 很 大 。 当 我 们 强 
制 将 长 度 不 超过 100 个 词 条 的 样本 加 长 到 400 个 词 条 , 那么 将 1000 个 词 条 的 样本 截断 到 400 个 词 
条 时 , 就 会 引入 大 量 的 噪声 。 改变 这 个 数字 对 训练 时 间 的 影响 比 改 变 模 型 中 的 其 他 任何 参数 的 影响 
都 要 大 , 单个 样本 的 长 度 决定 了 误差 需要 在 多 长 时 刻 内 反 向 传播 。 对 于 训练 循环 神经 网 络 , 设置 样 
本 长 度 不 是 严格 必要 的 。 我 们 可 以 简单 地 将 网 络 展开 为 样本 所 需 的 大 小 , 在 我 们 的 例子 中 这 种 做 法 
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是 必要 的 ， 因 为 我 们 把 本 身 就 是 一 个 序列 的 输出 传递 到 一 个 前 馈 层 ， 而 前 馈 层 需要 统一 输入 的 大 小 。 

embedding dims 值 是 由 我 们 所 选择 的 Word2vec 模型 决定 的 ， 但 是 它 应 该 是 可 以 充分 表示 
数据 集 的 值 。 即 使 是 像 语料库 中 最 常见 的 50 个 词 条 的 独 热 编码 这 样 简单 的 向 量 ， 可 能 也 足以 获 
得 精确 的 预测 。 

与 所 有 网 络 一 样 , 增加 batch size 可 以 加 速 训 练 , 因为 它 减少 了 需要 进行 反 向 传播 ( 计 
算 上 开销 较 大 的 部 分 ) 的 次 数 。 折 中 的 结果 是 ， 更 大 的 批量 增加 了 在 局 部 极 小 值 处 停顿 下 来 的 
可 能 。 

epochs 参数 易于 测试 和 调 优 ， 只 需 再 次 运行 训练 过 程 即 可 。 但 是 ， 如 果 我 们 必须 从 头 开 始 
尝试 每 个 新 的 epochs 参数 ， 那 么 这 需要 很 多 的 耐心 。Keras 模型 可 以 重新 启动 训练 ， 并 从 停止 
的 地 方 继续 ， 只 要 我 们 在 “停止 ”处 保存 了 模型 即 可 。 要 在 以 前 训练 过 的 模型 上 重新 启动 训练 ， 
请 重新 加 载 该 模型 和 数据 集 ， 并 对 数据 调用 model .fit () 。Keras 不 会 重新 初始 化 权重 ， 而 是 
像 从 未 停止 过 一 般 继续 训练 。 

另 一 种 对 epochs 参数 进行 调 优 的 方法 是 添加 一 个 名 为 EarlyStopping 的 Keras 回调 方 
法 。 通 过 向 模型 提供 此 方法 ， 除 非 传递 给 EarlyStopping 的 度量 指标 超过 了 在 回调 方法 中 用 
于 触发 的 某 个 靖 值 ， 否 则 模型 将 持续 训练 ， 直 到 达到 我 们 所 请 求 的 周期 数 为 止 。 一 个 常见 的 早 
停 度量 指标 是 连续 几 个 周期 验证 精确 率 提高 值 。 如 果 我 们 的 模型 没有 变 得 更 好 ,通常 就 意味 着 
是 时 候 “ 断 线 ”( 断 开 链接 ) 了 。 

这 个 度量 指标 允许 我 们 设置 它 并 忘记 它 的 存在 。 当 模型 达到 我 们 的 度量 指标 时 , 模型 将 停止 
训练 。 我 们 不 必 担 心 投 入 大 量 的 时 间 之 后 ， 才 发 现 模型 早 在 42 个 周期 之 前 就 开始 过 拟 合 我 们 的 
训练 数据 了 。 

num neurons 是 一 个 重要 的 参数 。 上 面 建议 随意 地 使 用 50 个 神经 元 。 现 在 我 们 用 100 个 
神经 元 而 不 是 50 个 来 进行 训练 和 测试 ， 整 个 过 程 如 代码 清单 8-14 和 代码 清单 8-15 所 示 。 



















































































代码 清单 8-14 ”建立 一 个 更 大 的 网 络 





>>> num neurons = 100 

>>> model = Sequential () 

>>> model.add(SimpleRNN ( 

num_neurons, return_sequences=True, input_shape=(maxlen, \ 
embedding_dims) ) ) 











el.add(Dropout (.2) ) 
>>> model.add(Flatten() ) 
>>> model.add(Dense(1l, activation='sigmoid') ) 
>>> model.compile('rmsprop', 'binary_crossentropy', metrics=['accuracy']) 
Using TensorFlow backend. 
>>> model.summary () 
Layer (type) Output Shape Param # 
simple rnn 1 (SimpleRNN) (None, 400, 100) 40100 





dropout 1 (Dropout) (None, 400, 100) 0 
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flatten 1 (Flatten) (None, 40000) 0 





dense 1 (Dense) (None, 1) 40001 


Total params: 80,101.0 
Trainable params: 80,101.0 
Non-trainable params: 0.0 





代码 清单 8-15 训练 更 大 的 网 络 





>>> model.fit(x_train, y_train, 
batch_size=batch_size, 
epochs=epochs, 

geese validation_data=(x_test, y_test)) 

Train on 20000 samples, validate on 5000 samples 


Epoch 1/2 

20000/20000 [==============================] - 287s - loss: 0.9063 - 
acc: 0.6529 - val_loss: 0.5445 - val_acc: 0.7486 

Epoch 2/2 

20000/20000 [==============================] - 240s - loss: 0.4760 - 


acc: 0.7951 - val_loss: 0.5165 - yal act: 0.7824 

>>> model_structure = model.to_json() 

>>> with open("simplernn_model2.json", "w") as json_file: 
json_file.write (model_structure) 

>>> model.save_weights ("simplernn_weights2.h5") 

Model saved. 


上 述 更 大 的 网 络 相 当 于 在 代码 清单 8-13 中 的 网 络 的 其 中 一 层 将 模型 的 复杂 度 提高 了 一 倍 ， 
其 验证 精确 率 为 78.24%, 仅 提高 了 0.04%。 这 个 微不足道 的 提高 会 让 我 们 觉得 模型 ( 对 于 这 个 网 
络 层 ) 对 数据 来 说 太 复 杂 了 。 这 个 网 络 层 可 能 有 些 太 宽 了 。 

下 面 是 将 num neurons 设置 为 25 时 的 情况 : 


20000/20000 [==============================] - 240s - loss: 0.5394 - 
acc: 0.8084 - val_loss: 0.4490 - val acc: 0.7970 


这 个 结果 很 有 趣 。 当 我 们 把 中 间 的 尺寸 缩小 一 点 时 ,我 们 的 模型 稍微 好 了 一 点 ( 验证 精确 率 
高 了 1.5%), 但 提高 得 还 不 是 很 显著 。 这 类 测试 可 能 需要 相当 长 的 时 间 来 培养 一 种 直觉 。 我 们 
能 会 发 现 , 随 着 训练 时 间 的 增加 , 我 们 将 无 法 享受 从 其 他 编码 任务 中 获得 的 即时 反馈 和 满足 感 ， 
这 一 点 对 新 人 来 说 尤其 困难 。 有 时 一 次 改变 一 个 参数 会 掩盖 一 次 调整 两 个 参数 所 带 来 的 好 处 。 但 
是 ， 如 果 我 们 深 陷 组 合 导致 的 “兔子 洞 ” 而 无 法 自拔 ， 那 么 任务 的 复杂 度 会 达到 顶点 。 

提示 经 常 实验 ,并 记录 模型 对 我 们 的 操作 的 反应 。 这 种 亲身 实践 的 工作 会 为 我 们 通过 直觉 构建 模 
型 提供 最 快捷 的 途径 。 


如 果 我 们 觉得 模型 对 训练 数据 过 拟 合 , 但 又 无 法 找到 使 模型 更 简单 的 方法 , 那么 我 们 总 是 可 
以 尝试 增加 模型 中 的 Dropout () 函数 中 的 百分比 参数 。 这 是 一 把 可 以 降低 过 拟 合 风险 的 “大 锤 ”( 实 
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际 上 是 一 把 “ 散 弹 枪 ”)， 同 时 允许 模型 具备 匹配 数据 所 需 的 尽 可 能 高 的 复杂 度 。 如 果 我 们 把 dropout 
百分比 设置 在 50% 以 上 ,模型 就 会 开始 有 学 习 上 的 困难 ， 学 习 速 度 将 会 变 慢 ， 验 证 误差 将 会 增多 。 
但 是 对 许多 NLP 问题 来 说 ， 循 环 网 络 的 dropout 百分比 设置 为 20% ~ 50% 是 一 个 相当 安全 的 范围 。 














8.5 ”预测 


现在 我 们 已 经 有 了 一 个 经 过 训练 的 模型 ， 接 下 来 就 可 以 像 在 上 一 章 中 对 CNN 所 做 的 那样 进 
行 预 测 ， 预 测 过 程 如 代码 清单 8-16 所 示 。 


代码 清单 8-16 ”吐槽 糟糕 天 气 的 情感 分 析 





>>> sample 1 = "I hate that the dismal weather had me down for so long, when 
= will it break! Ugh, when does happiness return? The sun is blinding and 
= the puffy clouds are too thin. I can't wait for the weekend." 


>>> from keras.models import model from json 

>>> with open("simplernn_modell.json", "r") as json_file: 
ot json string = json_file.read() 

>>> model = model_from_json(json_string) 

>>> model.load_weights('simplernn_weights1.h5"') 


>>> vec_list = tokenize_and_vectorize([(l, sample_1)]) 一 一 一 一 一 一 一 一 
>>> test vec list = pad_trunc(vec_list, maxlen) 
>>> test vec = np.reshape(test_vec_list, (len(test_vec_list), maxlen,\ 
embedding dims)) 分 词 函数 返回 一 个 数据 的 列 
表 (这 里 长 度 为 1) 














>>> model.predict_classes (test_vec) 
array([[0]], dtype=int32) 





为 元 组 的 第 一 个 元 素 传递 一 个 虚拟 值 ， 因 为 辅助 
函数 在 处 理 初 始 数据 的 时 候 需要 它 。 这 个 值 和 网 
络 无 关 ， 它 可 以 是 任何 值 

















结果 又 是 负 向 的 。 

我 们 又 有 了 一 个 可 以 添加 到 流水 线 中 的 工具 , 可 以 对 可 能 的 回复 以 及 用 户 可 能 输入 的 问题 或 
搜索 进行 分 类 。 但 是 为 什么 要 选择 循环 神经 网 络 呢 ? 简单 的 答案 是 : 不 一 定 要 选择 循环 神经 网 络 ， 
至 少 不 是 像 这 里 实现 的 SimpleRNN 一 样 。 与 前 馈 网 络 或 卷 积 神经 网 络 相 比 , 它 训练 和 传递 新 样 
本 的 成 本 相对 较 高 。 至 少 在 本 例 中 ， 结 果 并 没有 明显 改善 ， 其 至 根本 没有 改善 。 

那么 为 什么 要 使 用 RNN YE? 记 住 出 现 过 的 输入 位 (bit) 的 概念 在 NLP 中 是 非常 重要 的 。 对 
循环 神经 网 络 来 说 ， 梯 度 消失 通常 是 一 个 难以 克服 的 问题 ， 特 别 是 在 一 个 有 如 此 多 时 刻 的 样本 中 。 
下 一 章 我 们 将 开始 研究 记忆 的 其 他 可 供 选 择 的 方法 ， 正 如 Andrej Karpathy 所 指出 的 ， 这 些 方法 
“ 毫 无 理由 地 有 效 ””。 

下 面 几 节 将 介绍 一 些 关于 循环 神经 网 络 的 其 他 内 容 , 这 些 内 容 在 示例 中 没有 提 到 , 但 仍然 很 重要 。 


























D Karpathy, Andrej, The Unreasonable Effectiveness of Recurrent Neural Networks. 
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8.5.1 有 状态 性 


有 时 候 , 我 们 想 要 记 住 从 一 个 输入 样本 到 下 一 个 输入 样本 的 信息 ,而 不 仅仅 是 单个 样本 中 的 
一 个 输入 词 条 到 下 一 个 输入 词 条 的 一 次 时 刻 ( 词 条 )。 在 训练 结束 时 , 这 些 信息 会 发 生 什么 变化 ? 
除了 通过 反 向 传播 被 编码 在 权重 中 的 内 容 ， 最 终 的 输出 对 网 络 没有 影响 ， 下 一 个 输入 将 重新 开始 。 
Keras 在 基本 RNN 层 ( 因此 也 在 SimpleRNN 中 ) 提供 了 一 个 关键 字 参 数 stateful, 它 默认 为 
False， 如 果 在 模型 中 添加 SimpleRNN 层 时 将 其 设置 为 True， 则 最 后 一 个 样本 的 最 后 一 个 输 
出 将 在 下 一 个 时 刻 与 第 一 个 词 条 输入 一 起 传递 给 它 自 己 ， 就 像 在 样本 的 中 间 一 样 。 

当 我 们 想 要 对 一 个 大 型 的 已 被 分 割 成 段落 或 句子 进行 处 理 的 文档 建 模 时 , 将 stateful 设 
置 为 True 不 失 为 一 个 好 主意 。 我 们 甚至 可 以 使 用 它 来 对 相关 文档 的 整个 语料库 的 含义 建 模 。 但 
是 ,我 们 不 希望 在 没有 重 置 样本 间 模 型 状态 的 情况 下 ， 在 不 相关 的 文档 或 段落 上 训练 有 状态 的 
RNN。 同样 ， 如果 我 们 经 常 打 乱 文本 样本 , 则 一 个 样本 的 最 后 几 个 词 条 与 下 一 个 样本 的 前 几 个 词 
条 没有 任何 关系 。 因 此 ， 对 于 打 乱 的 文本 ， 我 们 需要 确保 stateful 参数 被 设置 为 False， 
为 样本 的 顺序 不 能 帮助 模型 找到 合适 的 匹配 关系 。 

如 果 传 递 给 fit 方法 一 个 batch_size 参数 ， 则 模型 的 有 状态 性 ( statefulness ) 将 在 一 批 
中 保存 每 个 样本 的 输出 。 然 后 前 一 批 中 第 一 个 样本 的 输出 将 会 输入 给 下 一 批 中 的 第 一 个 样本 , 前 
一 批 中 第 二 个 样本 的 输出 将 会 输入 给 下 一 批 的 第 二 个 样本 ,以 此 类 推 。 如 果 我 们 试图 基于 整体 的 
某 一 小 部 分 对 较 大 的 单个 语料库 进行 建 模 ， 那 么 关注 数据 集 的 顺序 就 变 得 非常 重要 。 
























































8.5.2 Wi] RNN 


到 目前 为 止 , 我 们 已 经 讨论 了 词 和 之 前 出 现 过 的 词 之 间 的 关系 。 但 是 ,如 果 词 之 间 的 依存 关 
系 翻 转 能 处 理 吗 ? 





They wanted to pet the dog whose fur was brown. 


( 他 们 想 抚摸 那 只 棕色 毛皮 的 狗 。) 


当 我 们 读 到 词 条 “fur” 时 , 已 经 遇 到 了 “dog”, 并 且 对 它 有 所 了 解 。 但 是 这 个 句子 也 包含 了 
“ 狗 有 毛皮 以 及 狗 的 毛皮 是 棕色 的 ”这 一 信息 。 这 些 信息 与 之 前 的 动作 “pet”( 抚摸 ) 和 “they” 
想 要 抚摸 的 事实 有 关 。 也 许 “they” 只 喜欢 抚摸 柔软 的 、 毛 昔 划 的 、 棕 色 的 东西 ， 而 不 喜欢 抚摸 
多 刺 的 绿色 的 东西 ， 如 仙人 掌 。 

人 类 阅读 句子 的 方向 是 单 向 的 , 但 当 接收 到 新 信息 时 ， 人 类 的 大 脑 能 够 迅速 回 到 文本 前 面 的 
内 容 。 人 类 可 以 处 理 那些 没有 按照 最 佳 顺 序 呈 现 的 信息 。 如 果 我 们 能 允许 模型 在 输入 之 间 来 回 切 
换 ， 那 就 太 好 了 。 这 就 是 双向 循环 神经 网 络 的 用 武之 地 。Keras 添加 了 一 个 层 包 装 咒 ， 它 可 以 在 
必要 时 自动 翻转 输入 和 输出 ， 为 我 们 自动 组 装 一 个 双向 RNN。 有 具体 做 法 参见 代码 清单 8-17。 


























代码 清单 8-17 ”创建 一 个 双向 循环 神经 网 络 





>>> from keras.models import Sequential 
>>> from keras.layers import SimpleRNN 
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>>> from keras.layers.wrappers import Bidirectional 


>>> num_neurons = 10 
>>> maxlen = 100 
>>> embedding_dims = 300 


>>> model = Sequential () 

>>> model.add (Bidirectional (SimpleRNN ( 
num_neurons, return_sequences=True) , \ 
input_shape=(maxlen, embedding_dims) ) ) 


其 基本 思想 是 将 两 个 RNN 并 排 在 一 起 ， 将 输入 像 普通 单 向 RNN 的 输入 一 样 传递 到 其 中 一 
个 RNN 中 ,并 将 同样 的 输入 从 反 向 传递 到 另 一 个 RNN 中 (如 图 8-13 所 示 )。 然 后 ， 在 每 个 时 
刻 将 这 两 个 网 络 的 输出 拼接 到 一 起 作为 另 一 个 网 络 中 对 应 ( 相同 输入 词 条 ) 时 刻 的 输入 。 我 们 
获取 输入 最 后 一 个 时 刻 的 输出 后 , 将 其 与 在 反 向 网 络 的 第 一 个 时 刻 的 由 相同 输入 词 条 生成 的 输 
出 拼接 起 来 。 




















随时 间 
| 反 向 传播 误差 


随时 间 
| 反 向 传播 误差 
(前 向 ? ) 





图 8-13 ”双向 循环 神经 网 络 





提示 Keras 也 有 一 个 go backwards 关键 字 参 数 。 如 果 将 这 个 参数 设置 为 True，Keras 会 自动 
翻转 输入 序列 并 将 它们 以 相反 的 顺序 输入 网 络 中 。 这 是 双向 网 络 层 的 下 半 部 分 。 

如 果 没 有 使 用 双向 包装 器 ， 这 个 关键 字 会 很 有 用 ， 因 为 循环 神经 网 络 ( 由 于 梯度 消失 问题 ) 在 样本 
的 末尾 比 在 起 始 时 更 容易 接受 数据 。 如 果 我 们 在 样本 的 末尾 填充 了 <PRAD> 词 条 ， 那 么 所 有 好 的 、 丰 
富 的 内 容 都 将 被 深 埋 在 输入 循环 中 。 而 go backwards 可 以 快速 地 解决 这 个 问题 。 


有 了 这 些 工具 , 我 们 不 仅 可 以 对 文本 进行 预测 和 分 类 , 还 可 以 对 语言 本 身 及 其 使 用 方式 进行 
建 模 。 有 了 这 种 对 算法 的 更 深层 次 的 理解 ,我 们 就 可 以 生成 全 新 的 语句 ， 而 不 仅仅 是 模仿 模型 之 
前 见 过 的 文本 了 ! 
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8.5.3 编码 向 量 





在 稠密 层 (dense layer) 的 前 面 有 一 个 向 量 ， 它 的 形状 〈 神 经 元 数量 xl ) 来 自给 定 输 入 序列 
的 循环 层 的 最 后 一 个 时 刻 。 这 个 向 量 与 前 一 章 卷 积 神经 网 络 中 的 思想 向 量 是 同等 的 概念 。 它 是 词 
条 序列 的 编码 表示 。 诚 然 ， 它 只 能 够 对 与 网 络 所 训练 的 标签 相关 的 序列 的 思想 进行 编码 ， 但 就 
NLP 领域 而 言 ， 这 是 一 个 惊人 的 成 就 ， 预 示 着 在 计算 上 能 将 更 高 阶 的 概念 编码 成 向 量 。 















































8.6 小结 








在 自然 语言 序列 ( 词 或 字符 ) 中 ,历史 的 内 容 对 于 模型 理解 序列 非常 重要 。 

在 时 间 维 度 ( 词 条 ) 上 , 分 解 自然 语言 语句 可 以 帮助 我 们 的 机 器 加 深 对 自然 语言 的 理解 。 
我 们 可 以 随时 间 〈 词 条 ) 反 向 传播 误差 ,包括 在 深度 学 习 网 络 的 各 层 中 。 

RNN 作为 深度 神经 网 络 ， 其 梯度 变化 是 非常 大 的 ， 可 能 会 造成 梯度 消失 或 者 梯度 爆炸 。 
在 循环 神经 网 络 被 应 用 于 语言 建 模 之 前 ， 为 自然 语言 字符 序列 有 效 地 建 模 都 是 不 可 能 完 
成 的 任务 。 

m 对 于 给 定 的 样本 ，RNN 的 权重 会 随 着 时 间 ( 词 条 ) 的 推移 进行 聚合 更 新 。 

E ”我们 可 以 使 用 不 同 的 方法 来 检查 循环 神经 网 络 的 输出 。 

m 我 们 可 以 通过 将 词 条 序列 同时 传递 给 前 向 、 反 向 RNN, 来 对 一 篇 文档 中 的 自然 语言 序列 
进行 建 模 。 
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本 章 主 要 内 容 

图 为 循环 神经 网 络 增加 更 深层 次 的 记忆 
图 神经 网 络 中 的 门 控 信 息 

图 文本 分 类 和 生成 

图 对 语言 模式 建 模 





























尽管 在 序列 数据 中 ,循环 神经 网 络 为 对 各 种 语言 关系 建 模 ( 因此 也 可 能 是 因果 关系 ) 提供 了 
诸多 便利 , 但 是 存在 一 个 主要 缺陷 : 当 传递 了 两 个 词 条 后 ,前 面 词 条 几乎 完全 失去 了 它 的 作用 。 
第 一 个 节点 对 第 三 个 节点 (第 一 个 时 刻 再 过 两 个 时 刻 后 ) 的 所 有 作用 都 将 被 中 间 时 刻 引 入 的 新 数 
据 彻 底 抹 平 。 这 对 网 络 的 基本 结构 很 重要 , 但 却 和 人 类 语言 中 的 常见 情景 相 违 背 , 实际 中 即使 词 
条 在 句子 中 相隔 很 远 ， 也 可 能 是 深度 关联 的 。 

我 们 看 看 下 面 这 个 例子 : 

The young woman went to the movies with her friends. 
( 这 个 年 轻 的 女人 和 她 的 朋友 去 看 电影 )。 

句子 中 主语 “woman” 紧 跟着 它 的 主要 动词 “went””。 我 们 在 前 几 童 中 了 解 到 ， 卷 积 网 络 
和 循环 网 络 都 可 以 很 容易 地 学 习 这 种 关系 。 

但 在 另 一 个 类 似 的 句子 中 : 

The young woman, having found a free ticket on the ground, went to the movies. 
( 那 位 年 轻 女士 ， 在 地 上 找到 一 张 免费 票 后 ， 就 去 看 电影 了 )。 

名 词 和 动词 在 序列 中 不 再 只 相隔 一 个 时 刻 。 在 这 个 新 的 、 更 长 的 句子 中 ,循环 神经 网 络 很 难 
理解 主语 “woman” 和 主动 词 “went” 之 间 的 关系 。 对 于 这 个 新 句子 ， 循 环 网 络 会 过 于 强调 动词 
“having” 和 主语 “woman” 之 间 的 联系 ， 而 低估 主语 与 谓语 主动 词 “went” 之 间 的 联系 。 也 就 是 






























































@® Christopher Olah 解释 了 出 现 了 这 种 现象 的 原因 。 
Q “went” 是 句子 中 的 谓语 ( 主动 词 )。 
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说 , 在 这 里 我 们 失去 了 句子 的 主语 和 谓语 动词 之 间 的 关联 性 。 在 循环 网 络 中 ， 当 我 们 遍历 每 个 句 


子 时 ， 权 重 会 衰减 得 过 快 。 

















这 里 面临 的 挑战 是 建立 一 个 网 络 ， 其 在 上 述 两 个 句子 中 都 能 
们 需要 的 是 能 够 在 整个 输入 序列 中 记 住 过 去 的 方法 。 长 短期 记忆 ( long short-term memory, LSTM ) 


则 正 是 我 们 所 需要 的 一 类 方法 。 





“领悟 ”到 相同 的 核心 思想 。 我 


长 短期 记忆 网 络 的 现代 版 本 通常 使 用 一 种 特殊 的 神经 网 络 单元 ， 称 为 门 控 循 环 单元 (gated 
recurrent unit, GRU )。 门 控 循环 单元 可 以 有 效 地 保持 长 、 短 期 记忆 ， 使 LSTM 能 够 更 精确 地 处 
理 长 句子 或 文档 o EKE, LSTM 工作 得 非常 好 , 它 在 几乎 所 有 涉及 时 间 序 列 、 离 散 序列 和 NLP 





领域 问题 的 应 用 中 都 取代 了 循环 神经 网 络 ”。 
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LSTM 对 于 循环 网 络 的 每 一 层 都 引入 了 状态 (state ) 的 概念 。 状 态 作 为 网 络 的 记忆 (memory ) 我 


们 可 以 把 上 述 过 程 看 成 是 在 面向 对 象 编程 中 为 类 添加 属 怕 
在 LSTM 中 , 管理 存储 在 状态 ( 记忆 ) 中 信息 的 规则 就 是 经 过 训练 的 神经 网 络 本 身 


























签 ! 随 着 记忆 和 状态 的 引入 ,我 们 可 以 开始 学 习 依 
赖 关 系 ， 这 些 依赖 关系 不 仅 可 以 扩展 到 一 两 个 词 
条 ， 甚 至 还 可 以 扩展 到 每 个 数据 样本 的 整体 。 有 了 
这 些 长 期 依赖 关系 ， 我们 就 可 以 开始 考虑 超越 文字 
本 身 的 关于 语言 更 深层 次 的 东西 。 

有 了 LSTM， 模 型 可 以 开始 学 习 人 类 习以为常 
和 在 潜意识 层面 上 人 处 理 的 语言 模式 。 有 了 这 些 模 
I, 我 们 不 仅 可 以 更 精确 地 预测 样本 类 别 , 还 可 以 开 
始 使 用 这 些 语言 模式 生成 新 的 文本 。 尽 管 这 个 领域 的 
技术 水 平 还 远 远 谈 不 上 完美 , 但 是 我 们 将 看 到 的 结 
果 ， 即 使 是 在 本 书 的 小 例子 中 ， 也 是 令 人 惊叹 的 。 

那么 , 它 到 底 是 如 何 工作 的 呢 ? 如 图 9-1 所 示 。 

就 像 在 一 般 的 循环 网 络 中 一 样 ， 记 忆 状 态 受 输 
入 的 影响 ， 同 时 也 影响 层 的 输出 。 但 是 ， 这 种 记忆 
状态 在 时 间 序 列 ( 句子 或 文档 ) 的 所 有 时 刻 会 持续 存 



























































记忆 ”状态 |。 一 





图 9-1 


E。 每 个 训练 样本 都 会 更 新 记忆 状态 的 属性 。 








这 就 


是 神奇 之 处 。 它们 可 以 通过 训练 来 学 习 要 记 住 什么 , 同时 循环 网 络 的 其 余部 分 会 学 习 预 测 目 标 标 


LSTM 






x(41) 


正常 循环 


LSTM 网 络 和 它 的 记忆 


@ Hochreiter 和 Schmidhuber 在 1997 年 发 表 了 第 一 篇 关于 LSTM 的 论文 “Long Short-Term Memory” ( 长 短 


期 记忆 )。 


@) Kyunghyun Cho 等 人 在 2014 年 发 表 的 “Learning Phrase Representations using RNN Encoder-Decoder for 
Statistical Machine Translation” ( 使 用 RNN 编码 -解码 器 来 学 习 统 计 机 器 翻译 的 短语 表示 )。 








@ Christopher Olah 的 博客 文章 解释 了 原因 。 
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在 。 因 此 ， 每 个 输入 都 会 对 记忆 状态 和 隐藏 层 的 输出 产生 影响 。 记 忆 状 态 的 神奇 之 处 在 于 ,， 它 在 
学 习 (使 用 标准 的 反 向 传播 ) 需要 记 住 的 信息 的 同时 ， 还 学 习 输出 信息 ! 这 看 起 来 像 什 么 呢 ? 
首先 ， 我 们 展开 一 个 标准 的 循环 神经 网 络 ， 并 添加 记忆 单元 。 图 9-2 看 起 来 与 一 般 的 循环 神 
经 网 络 相 似 。 但 是 , 除了 向 下 一 个 时 刻 提供 激活 函数 的 输出 ,这 里 还 添加 了 一 个 也 经 过 网 络 各 时 
刻 的 记忆 状态 。 在 每 个 时 刻 的 迭代 中 ,隐藏 层 循环 单元 都 可 以 访问 该 记忆 单元 。 这 个 记忆 单元 的 
添加 ， 以 及 与 其 交互 的 机 制 ， 使 它 与 传统 的 神经 网 络 层 有 很 大 的 不 同 。 然 而 ， 大 家 可 能 想 知道 ， 


























是 否 可 能 设计 一 组 传统 的 循环 神经 网 络 层 ( 计算 图 ) 来 完成 LSTM 层 中 存在 的 所 有 计算 。 事 实 上 ， 
LSTM 层 只 是 一 个 极为 特例 化 的 循环 神经 网 络 。 


1=0 t=1 t=2 











“记忆 ”状态 












图 9-2 ”展开 的 LSTM 网 络 和 它 的 记忆 











提示 在 很 多 文献 中 ,图 9-2 的 “记忆 状态 ” 块 被 称 为 LSTM 元 胞 ( cell )， 而 不 是 LSTM 神经 元 ， 
因为 它 包 含 两 个 额外 的 神经 元 或 门 控 单元 ， 就 像 一 个 硅 计算 机 记忆 细胞 一 样 。 当 一 个 LSTM 元 胞 
与 一 个 sigmoid 激活 函数 相 结合 ， 向 下 一 个 LSTM 元 胞 输出 一 个 值 时 ， 这 个 包含 多 个 相互 作用 元 素 
的 结构 被 称 为 LSTM 单元 。 多 个 LSTM 单元 组 合 形成 一 个 LSTM 层 。 图 9-2 中 穿 过 展开 循环 神经 
元 的 水 平 线 表 示 保 存 的 记忆 或 状态 。 当 词 条 序列 被 传递 到 一 个 多 单元 LSTM 层 时 , 它 将 变 成 一 个 具 
有 每 个 LSTM 元 胞 维 数 的 向 量 。 
我 们 仔细 看 看 这 其 中 的 一 个 元 胞 。 现 在 , 每 个 元 胞 不 再 是 一 系列 输入 权重 和 应 用 于 这 些 权 重 
的 激活 函数 ， 而 是 稍微 复杂 的 结构 。 与 前 面 一 样 ， 到 每 一 层 ( 或 元 胞 ) 的 输入 是 当前 时 刻 输入 和 
前 一 个 时 刻 输出 的 组 合 。 当 信息 流入 这 个 元 胞 而 不 是 权重 向 量 时 , 它 现在 需 经 过 3 个 门 : 遗忘 门 、 
























































D 最 近 一 个 关于 LSTM 的 很 好 示例 是 Alex Graves 在 2012 年 的 论文 “Supervised Sequence Labelling with 
Rucurrent Neural Networks” 。 
@ 参见 维基 百科 文章 “Memory cell”. 
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输入 /候选 门 和 输出 门 ( 如 图 9-3 所 示 )。 





1 一 1 时 刻 
的 输出 


1 时 刻 的 输入 












BTA 











图 9-3 t 时 刻 的 LSTM 层 





这 些 门 中 的 每 一 个 都 由 一 个 前 馈 网 络 层 和 一 个 激活 函数 构成 , 其 中 的 前 馈 网 络 包含 将 要 学 习 
的 一 系列 权重 。 从 技术 上 讲 ， 其 中 一 个 门 由 两 个 前 向 路 径 组 成 ,因此 在 这 个 层 中 将 有 4 组 权重 需 
要 学 习 。 权重 和 激活 函数 的 则 在 控制 信息 以 不 同 数量 流 经 元 胞 , 同时 也 控制 信息 到 达 元 胞 状态 (或 
记忆 ) 的 所 有 路 径 。 

在 深入 讨论 这 些 问 题 之 前 , 我 们 先 来 看 看 Python 代码 , 使 用 上 一 章 的 示例 , 并 将 SimpleRNN 
层 替 换 为 LSTM。 我 们 可 以 使 用 与 上 一 章 处 理 (x train 、y train x_test 和 y test ) 的 方法 相同 的 


向 量化 、 














填充 /截断 方法 来 处 理 数据 。 具 体 做 法 参见 代码 清单 9-1。 


代码 清单 9-1 Keras 中 的 LSTM Æ 








>>> maxlen = 400 

>>> batch_size = 32 

>>> embedding_dims = 300 

>>> epochs = 2 

>>> from keras.models import Sequential 

>>> from keras.layers import Dense, Dropout, Flatten, LSTM 

>>> num_neurons = 50 

>>> model = Sequential () 

>>> model.add(LSTM(num_neurons, return_sequences=True, 

aud input_shape=(maxlen, embedding_dims) ) ) 

>>> model.add (Dropout (.2) ) 

>>> model.add (Flatten () ) 

>>> model.add (Dense (1, activation='sigmoid') ) 

>>> model.compile('rmsprop', 'binary_crossentropy', metrics=['accuracy']) 
>>> print (model.summary () ) 

Layer (type) Output Shape Param # 
lstm 1 (LSTM) (None, 400, 50) 70200 
dropout 1 (Dropout) (None, 400, 50) 0 





flatten 1 (Flatten) (None, 20000) 0 
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dense_1 (Dense) (None, 1) 20001 


Total params: 90,201.0 
Trainable params: 90,201.0 
Non-trainable params: 0.0 


与 上 一 章 的 代码 相 比 ， 只 有 导 和 人 库 那 一 部 分 和 其 中 一 行 Keras 代码 发 生 了 变化 ， 但 在 代码 的 表面 
下 的 许多 事情 正在 悄然 发 生 。 从 上 面 给 出 的 模型 摘要 中 , 我 们 可 以 看 到 , 对 于 相同 数量 的 神经 元 ( 50 ), 
我 们 需要 训练 的 参数 比 上 一 章 的 SimpleRNN 中 的 要 多 得 多 。 回 想 一 下 ， 简 单 的 RNN 有 以 下 权重 : 

m 300( 对 应 于 输入 向 量 的 每 个 元 素 ); 

m 1( 对 应 于 偏 置 项 ); 

m 50( 对 应 于 前 一 个 时 刻 的 每 个 神经 元 的 输出 )。 

每 个 神经 元 总 共有 351 个 权重 : 

















351 x 50= 17 550 
元 胞 有 3 个 门 (总 共 4 个 神经 元 ): 
17 550 x 4=70 200 
但 什么 是 记忆 呢 ? 记忆 将 由 一 个 向 量 来 表示 ， 这 个 向 量 与 元 胞 中 神经 元 的 元 素数 量 相同 。 这 里 
的 示例 相对 简单 ， 只 有 50 个 神经 元 ， 因 此 记忆 单元 将 是 一 个 由 50 个 元 素 长 的 浮 点 数 (float ) 向 量 。 
那么 这 些 门 又 是 什么 ?我们 跟随 第 一 个 样本 ， 了 解 它 在 网 络 中 的 运行 情况 ( 如 图 9-4 所 示 )。 


1 一 1 时 刻 
的 输 
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1 时 刻 
的 输入 


输出 给 
村 1 时 刻 
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图 9-4 LSTM 层 的 输入 

通过 元 胞 的 “旅程 ”不 是 一 条 单一 的 道路 ， 它 有 多 个 分 支 ， 我 们 将 跟随 每 个 分 支 一 段 时 间 ， 
然后 后 退 、 前 进 、 进 入 另 一 分 支 ， 最 后 再 回 到 一 起 ， 以 得 出 元 胞 输出 的 最 终结 果 。 

我 们 从 第 一 个 样本 中 获取 第 一 个 词 条 ,并 将 其 300 个 元 素 的 向 量 表示 传递 到 第 一 个 LSTM 元 
胞 。 在 进入 元 胞 的 过 程 中 ， 数 据 的 向 量 表 示 与 前 一 个 时 刻 的 向 量 输出 (第 一 个 时 刻 的 向 量 为 0) 
拼接 起 来 。 在 本 例 中 , 我 们 将 得 到 一 个 长 度 为 300 + 50 个 元 素 的 向 量 。 有 时 我 们 会 看 到 向 量 后 面 
加 一 个 代表 偏 置 项 的 1。 因 为 偏 置 项 在 传递 到 激活 函数 之 前 总 是 将 其 相关 权重 乘 以 值 1， 所 以 有 
时 会 从 输入 向 量 表 示 中 省 略 该 输入 ， 以 使 图 更 易于 理解 。 
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在 道路 的 第 一 个 分 贫 处 , 我 们 将 拼接 起 来 的 输入 向 量 的 副本 传递 到 似乎 会 预示 厄运 的 遗忘 门 
( 如 图 9-5 所 示 )。 遗 忘 门 的 目标 是 ,根据 给 定 的 输入 ,学 习 要 遗忘 元 胞 的 多 少 记 忆 。 呈 ， 稍 等 一 
下 ， 我 们 刚 把 这 个 记忆 输入 进去 ， 你 要 做 的 第 一 件 事 却 是 遗忘 它 ? 简直 难以 置信 。 




















二 1 时 刻 的 输出 
前 一 个 时 刻 
50 个 元 素 的 向 量 输出 


拼接 起 来 的 输入 
350 个 元 素 的 向 量 
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z Pokal 
t 时 刻 的 输入 个 神经 元 351 个 权重 
1 个 词 条 ( 词 或 者 字符 ) SINTER 5 





由 300 个 元 素 的 向 量 表示 











图 9-5 第 一 站 一 一 遗忘 门 

想 要 遗忘 和 想 要 记 住 的 想法 一 样 重要 。 作 为 一 名 人 类 读者 ， 当 我 们 从 文本 中 获取 某 些 信息 时 ， 
例如 名 词 是 单数 还 是 复数 , 我 们 想 要 保留 这 些 信息 , 以 便 在 之 后 的 句子 中 能 识别 出 与 之 匹配 的 正 
确 的 动词 词 形变 化 或 形容 词 形式 。 在 罗曼 斯 语系 (romance language) 中 ， 我 们 也 必须 识别 一 个 
名 词 的 性 别 , 然后 在 句子 中 使 用 它 。 但 是 输入 序列 会 经 常 地 从 一 个 名 词 转换 到 男 一 个 名 词 ， 因 为 
输入 序列 可 以 由 多 个 短语 、 句 子 甚至 文档 组 成 。 由 于 新 的 思想 是 在 后 面 的 语句 中 表达 的 ,名词 是 
复数 的 事实 可 能 与 后 面 不 相关 的 文本 没有 任何 关系 。 





























A thinker sees his own actions as experiments and questions—as attempts to find out 
something. Success and failure are for him answers above all. 

(一 个 思想 家 认为 自己 的 行为 只 是 实验 和 问题 一 一 只 是 用 来 尝试 发 现 一 些 事物 。 成 
功 和 失败 对 他 而 言 只 是 那些 行为 的 答案 。) 





Friedrich Nietzsche 


在 这 名 引文 中 ,动词 “see” 与 名 词 “thinker” 搭 配 。 我 们 遇 到 的 下 一 个 主动 动词 是 第 二 个 句 
子 中 的 “to be”。 这 时 “be” 动 词 变 形成 “are”， 与 “Success and failure” 匹 配 。 如 果 把 它 和 句子 
中 的 第 一 个 名 词 “thinker” 搭 配 起 来 ， 就 会 使 用 错误 的 动词 形式 “is"。 因 此 ，LSTM 不 仅 必须 对 
序列 中 的 长 期 依赖 关系 建 模 , 而 且 同 样 重要 的 是 , 还 必须 随 着 新 依赖 关系 的 出 现 而 忘记 长 期 依赖 
关系 ， 这 就 是 遗忘 门 的 作用 ， 在 我 们 的 记忆 元 胞 中 为 相关 的 记忆 腾 出 空间 。 

网 络 并 不 基于 这 类 显 式 表示 进行 工作 。 我 们 的 网 络 试图 找到 一 组 权重 , 用 它们 乘 以 来 自 词 条 
序列 的 输入 ， 以 便 以 最 小 化 误差 的 方式 更 新 记忆 元 胞 和 输出 。 令 人 惊讶 的 是 ， 它 们 竟然 能 工作 ， 
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而 且 它 们 确实 工作 得 很 好 ,但 是 在 惊叹 之 余 ， 我 们 还 是 回 到 遗忘 门 。 

遗忘 门 本 身 ( 如 图 9-6 所 示 ) 只 是 一 个 前 馈 网 络 。 它 由 n 个 神经 元 组 成 ， 每 个 神经 元 的 权重 个 数 
为 m+n+1。 所 以 在 本 示例 中 ,遗忘 门 有 50 个 神经 元 ， 每 个 神经 元 有 351 (300+ 50+ 1) 个 权重 。 
为 我 们 希望 遗忘 门 中 的 每 个 神经 元 的 输出 值 在 0 到 1 之 间 ， 所 以 遗忘 门 的 激活 函数 是 sigmoid 函数 。 
十 1 时 刻 的 输出 


前 一 个 时 刻 
50 个 元 素 的 向 量 输 出 



























拼接 起 来 的 输入 


350 个 元 素 的 向 量 





遗忘 门 














t ATH TA 
Bees 每 个 神经 元 351 个 权重 候选 门 输出 给 
( 词 或 者 字符 ) (其 中 1 个 代表 偏 置 项 ) ， (2 个 元 素 ) 村 1 时 刻 
由 300 个 元 素 的 向 量 表示 = SO 

















记忆 


然后 ， 遗 忘 门 的 输出 向 量 是 某 种 掩 码 (多孔 掩 码 )， 它 会 遗忘 记忆 向 量 的 某 些 元 素 。 当 遗忘 
门 输出 值 接近 于 1 时 ， 对 于 该 时 刻 ， 关 联 元 素 中 更 多 的 记忆 知识 会 被 保留 ， 它 越 接近 于 O, P 
的 记忆 知识 就 越 多 ( 如 图 9-7 所 示 )。 





图 9-6 遗忘 门 
































1-1 时 刻 的 记忆 向 量 ”XX ” {时 刻 的 遗忘 门 掩 码 三 新 的 记忆 向 量 
(逐个 元 素 ) 
03 x 99 = 
42 x 00 = 
14 x 01 = 
(一 共 50 个 元 素 ) (一 共 50 个 元 素 ) (一 共 50 个 元 素 ) 
1-1 时 刻 的 记忆 向 量 1 时 刻 的 遗忘 门 掩 码 新 的 记忆 向 量 








图 9-7 ”遗忘 门 的 应 用 
通过 检查 核对 ， 上 述 模型 的 遗忘 门 能 够 主动 忘记 一 些 东西 。 我 们 最 好 学 会 记 住 一 些 新 的 
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否则 它 很 快 就 会 被 遗忘 的 。 就 像 在 “遗忘 门 ” 中 一 样 ， 我 们 将 使 用 一 个 小 网 络 ， 根 据 两 件 事 来 学 
习 需 要 加 入 多 少 记忆 : 到 目前 为 止 的 输入 和 上 一 个 时 刻 的 输出 。 这 是 我 们 在 下 一 个 分 支 进 入 的 门 
中 发 生 的 事情 : 候选 门 。 

候选 门 内 部 有 两 个 独立 的 神经 元 ， 它 们 做 两 件 事 : 

(1) 决定 哪些 输入 向 量 元 素 值 得 记 住 ( 类 似 于 遗忘 门 中 的 掩 码 ); 

(2) 将 记 住 的 输入 元 素 按 规定 路 线 放 置 到 正确 的 记忆 “ 酸 ”。 

候选 门 的 第 一 部 分 是 一 个 具有 sigmoid 激活 函数 的 神经 元 ， 其 目标 是 学 习 要 更 新 记忆 向 量 的 
哪些 输入 值 。 这 个 神经 元 很 像 遗忘 门 中 的 掩 码 。 

这 个 门 的 第 二 部 分 决定 使 用 多 天 的 值 来 更 新 记忆 。 第 二 部 分 使 用 一 个 tanh 激活 函数 ， 它 强 
制 输出 值 在 -1 和 1 之 间 。 这 两 个 向 量 的 输出 是 按 元 素 相 乘 ， 然 后 ， 将 相 乘 得 到 的 结果 向 量 按 元 
素 加 到 记忆 寄存 器 ， 从 而 记 住 新 的 细节 ( 如 图 9-8 所 示 )。 



















































































S 
候选 选择 
使 用 sigmoid 使 用 tanh 
激活 函数 的 激活 函数 的 
1 个 神经 元 1 个 神经 元 
出 值 输出 值 在 
pl -1 和 1 之 间 
n 维 输出 
按 元 素 相 乘 
候选 站 aaa i 
S 
i 回 n 维 更 新 后 
.en + (Caa 
按 元 素 相 加 
图 9-8 ”候选 门 





这 个 门 同时 学 习 要 提取 哪些 值 以 及 这 些 特定 值 的 大 小 。 掩 码 和 大 小 成 为 添加 到 记忆 状态 的 
值 。 与 遗忘 门 一 样 ， 候 选 门 会 学 习 在 将 不 合适 信息 添加 到 元 胞 的 记忆 之 前 屏蔽 掉 它们 。 

所 以 我 们 希望 旧 的 、 不 相关 的 信息 被 遗忘， 而 新 的 信息 能 够 被 记 住 。 然 后 我 们 到 达 元 胞 的 最 
后 一 个 门 : 输出 门 。 

到 目前 为 止 , 在 穿越 元 胞 的 过 程 中 , 我 们 只 向 元 胞 的 记忆 写 和 人 了 内 容 ,现在 是 时 候 利用 整个 
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结构 了 。 输出 门 接收 输入 ( 记 住 , 这 仍然 是 上 时 刻 元 胞 的 输入 和 六 1 时 刻 元 胞 的 输出 的 拼接 )， 并 
将 其 传递 到 输出 门 。 

拼接 的 输入 被 传递 到 nn 个 神经 元 的 权重 中 ,然后 使 用 sigmoid 激活 函数 来 输出 一 个 n 维 浮 点 
数 向 量 ， 就 像 SimpleRNN 的 输出 一 样 。 但 是 不 同 于 通过 细胞 壁 ( cell wall) 来 传递 信息 ， 在 网 络 
中 ， 我 们 通过 和 暂停 部 分 输出 来 传递 信息 。 

我 们 构建 的 记忆 结构 现在 已 经 准备 完成 了 , 它 将 对 我 们 应 该 输出 什么 进行 权衡 , 这 将 是 通过 
使 用 记忆 创建 最 后 一 个 掩 码 来 判断 的 。 这 个 掩 码 也 是 一 种 门 ， 但 是 请 尽量 避免 使 用 门 这 个 术语 ， 
因为 这 个 掩 码 没有 任何 学 习 过 的 参数 ， 这 有 别 于 前 面 描述 的 3 个 门 。 

由 记忆 创建 的 掩 码 是 对 记忆 状态 的 每 个 元 素 使 用 tanh 函数 ， 它 提供 了 一 个 在 -1 和 1 之 间 的 
n 维 浮 点 数 向 量 。 然 后 将 掩 码 向 量 与 输出 门 第 一 步 中 计算 的 原始 向 量 按 元 素 相 乘 。 得 到 的 n 维 结 
果 向 量 作为 元 胞 在 t 时 刻 的 正式 输出 最 终 从 元 胞 中 传 出 ( 如 图 9-9 所 示 )。 


! 输 入 
+l 


7 





























更 新 门 N 









使 用 sigmoid 
激活 函数 的 
1 个 神经 元 


输出 0~1 


之 间 的 值 | 1 时 刻 层 的 


输出 回 传 自身 






+ 两 个 向 量 
按 元 素 相 加 


/ 


对 记忆 向 量 应 用 tanh 
激活 函数 按 元 素 相 乘 








1 时 刻 层 的 输出 






n 维 记忆 向 量 


图 9-9 更 新 /输出 门 
提示 记 住 ,LSTM 元 胞 的 输出 类 似 于 简单 循环 神经 网 络 层 的 输出 。 它 作为 层 的 输出 (在 t 时刻 ) 
传递 到 元 胞 外 ， 并 作为 村 1 时 刻 输 入 的 一 部 分 回 传 至 元 胞 本 身 。 


因此 , 在 获得 了 1 时 刻 的 输入 和 1 一 1 时刻 的 输出 , 以 及 输入 序列 中 的 所 有 细节 之 后 , 元 胞 的 
记忆 就 知道 在 1 时 刻 ， 最 后 一 个 词 输出 什么 是 最 重要 的 。 
































9.1.1 随时 间 反 向 传播 
那么 这 个 网 络 是 如 何 学 习 的 呢 ? 与 其 他 任何 神经 网 络 一 样 一 一 通过 反 向 传播 算法 。 现在 , 回 
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过 头 来 看 看 我 们 是 如 何 使 用 这 种 新 的 复杂 结构 来 解决 问题 的 。 基 本 RNN ( Vanilla RNN ) 易于 受 
到 梯度 消失 影响 是 因为 在 任意 给 定时 刻 ， 导 数 都 是 权重 的 一 个 决定 因素 ,因此 ， 当 我 们 结合 不 同 
的 学 习 率 ， 往 之 前 时 刻 ( 词 条 ) 传播 时 ， 经 过 几 次 迭代 之 后 ， 权重 ( 和 学 习 率 ) 可 能 会 将 梯度 缩 
小 到 0。 在 反 向 传播 结束 时 ( 相当 于 序列 的 开始 )， 对 权重 的 更 新 要 么 很 小 要 么 就 为 0。 当 权重 稍 
大 时 也 会 出 现 类 似 的 问题 : 梯度 爆炸 并 不 与 网 络 增长 成 比例 。 

LSTM 通过 记忆 状态 避免 了 这 个 问题 。 每 个 门 中 的 神经 元 都 是 通过 它们 输入 进 的 函数 的 导数 
来 更 新 的 ， 即 那些 在 前 向 传递 时 更 新 记忆 状态 的 函数 。 所 以 在 任何 给 定 的 时 刻 ， 当 一 般 链 式 法 则 
反 向 应 用 于 前 向 传播 时 ， 对 神经 元 的 更 新 只 依赖 于 当前 时 刻 和 前 一 个 时 刻 的 记忆 状态 。 这 样 , 整 
个 函数 的 误差 在 每 个 时 刻 都 能 “更 接近 ”神经 元 。 这 就 是 所 谓 的 误差 传播 (error carousel )。 


实践 


那么 ， 这 在 实践 中 是 如 何 工作 的 呢 ? 就 像 上 一 章 的 简单 的 RNN 一 样 ， 我 们 所 更 改 的 只 是 黑 
盒 的 内 部 工作 方式 ， 它 是 网 络 中 的 一 个 循环 层 。 因 此 ， 我 们 只 需 将 Keras 的 SimpleRNN ERM 
为 Keras 的 LSTM 层 ， 我 们 的 分 类 器 的 其 他 所 有 部 分 都 将 保持 不 变 。 
ee el a ve 对 文本 分 词 并 使 用 Word2vec afin HRA o 
后 , 使 用 前 面 几 童 中 定义 的 函数 , 将 序列 填充 /截断 为 400 个 词 条 。 具体 做 法 参见 代码 清单 9-2。 















































代码 清单 9-2 加载 并 准备 IMDB 数据 





>>> import numpy as np 


>>> dataset = pre process data('./aclimdb/train') 7 收集 数据 并 做 好 准备 


>>> vectorized data = tokenize and vectorize (dataset) 
>>> expected = collect_expected (dataset) 
>>> split_point = int(len(vectorized_data) * .8) 








>>> x_train = vectorized_data[:split_point] vc eR 


>>> y_train expected[:split_point] 
>>> x_test vectorized_data[split_point: 
>>> y_test expected[split_point:] 


声明 超 参数 在 反 向 传播 误差 和 更 新 权重 之 前 需要 
>>> maxlen = 400 传递 给 网 络 的 样本 数 


>>> batch_size = 32 


>>> embedding_dims = 300 我 们 创建 的 需要 传递 进 
K 
>>> hs = 2 、 Enna 
ae Convnet 的 词 条 向 量 的 长 度 


>>> x_train = pad_trunc(x_train, maxlen) 进一步 准备 数据 ， 使 每 
>>> X test = pad_trunc(x_test, maxlen) 个 序列 的 长 度 相 等 
>>> x train = np.reshape(x_train, 

ee (len(x_train), maxlen, embedding_dims) ) 
>>> y_train = 

>>> x_test 
>>> y_test 






































np.array(y_train) 





np.reshape(x_test, (len(x_test), maxlen, embedding_dims) ) 
np.array(y_test) 重新 塑 形 成 一 
numpy 数据 结构 
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然后 我 们 可 以 使 用 新 的 LSTM 层 构建 模型 ， 如 代码 清单 9-3 所 示 。 


代码 清单 9-3 ”建立 一 个 Keras 的 LSTM 网 络 








>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Dropout, Flatten, LSTM 





























>>> num_neurons = 50 ae 
me SEF ARZE AZ pfr 

>>> model = Sequential () Keras 使 实现 变 得 简单 
>>> model.add(LSTM(num_neurons, return_sequences=True, 

ae input_shape=(maxlen, embedding_dims) ) ) ¢— Perr 
>>> model.add (Dropout (.2)) 对 了 层 的 输出 进 
>>> model.add(Flatten() ) < | 行 扁平 化 处 理 
>>> model.add(Dense(1, activation='sigmoid') ) 一 一 一 一 一 一 一 一 一 
>>> model.compile('rmsprop', 'binary_crossentropy', metrics=['accuracy']) 
>>> model.summary () 
Layer (type) Output Shape Param # 
lstm 2 (LSTM) (None, 400, 50) 70200 
dropout_2 (Dropout) (None, 400, 50) 0 
flatten_2 (Flatten) (None, 20000) 0 
dense 2 (Dense) (None, 1) 20001 
Total params: 90,201.0 一 个 神经 元 层 ， 它 将 输出 0 
Trainable params: 90,201.0 到 1 之 间 的 浮 点 数 





Non-trainable params: 0.0 

像 前 面 一 样 训 练 并 保存 模型 ， 如 代码 清单 9-4 和 代码 清单 9-5 所 示 。 
代码 清单 9-4 训练 LSTM 模型 

model.fit(x_train, y_train, < ese 


batch_size=batch_size, 
epochs=epochs, 
ae, validation_data=(x_test, y_test) ) 
Train on 20000 samples, validate on 5000 samples 





Epoch 1/2 

20000/20000 [==============================] - 548s - loss: 0.4772 - 
acc: 0.7736 - val_loss: 0.3694 = val_acc: 0.8412 

Epoch 2/2 

20000/20000 [==============================] - 583s - loss: 0.3477 - 


acc: 0.8532 - val_loss: 0.3451 - val_acc: 0.8516 
<keras.callbacks.History at 0x145595fd0> 


代码 清单 9-5 ”保存 模型 


>>> model_structure = model.to_json() 保存 它 的 结构 ， 这 样 就 
YA, a 
>>> with open("lstm_modell.json", "w") as json_file: Spe ey 
5, ALESE 4 
json_file.write (model_structure) 不 必 再 次 构建 这 部 分 了 




















>>> model.save_weights ("lstm_weights1.h5") 
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与 我 们 在 第 8 章 中 使 用 相同 数据 集 实 现 的 简单 的 RNN 相 比 ， 验 证 精确 率 获得 了 一 次 巨大 提 
升 。 当 词 条 之 间 的 关系 非常 重要 时 , 我 们 可 以 看 到 通过 为 模型 提供 记忆 可 以 获得 巨大 的 收益 。 该 
算法 的 美妙 之 处 在 于 ,， 它 可 以 学 习 看 到 的 词 条 之 间 的 关系 。 网 络 现在 能 够 对 这 些 关系 建 模 , 尤其 
是 在 我 们 提供 的 代价 函数 的 上 下 文中 。 

在 这 种 情况 下 , 我 们 离 正 确 识别 正 向 或 负 向 情感 有 多 远 ?诚然 , 这 只 是 自然 语言 处 理 领 域 所 
有 问题 中 的 一 小 部 分 。 例 如 ,我 们 如 何 建 模 识别 幽默 .讽刺 或 焦虑 情感 ?它们 可 以 被 一 起 建 模 吗 ? 
这 绝对 是 时 下 活跃 的 一 个 研究 领域 。 虽然 需要 大 量 手工 标注 的 数据 ( 而 且 每 天 都 会 有 更 多 这 样 的 
数据 )， 但 是 单独 处 理 它们 绝对 是 一 个 可 行 的 方法 ， 并 且 在 我 们 的 流水 线 中 堆 受 这 些 类 型 的 离散 
分 类 器 是 探求 一 个 特定 领域 问题 的 合理 有 效 的 方法 。 





























9.1.2 ”模型 的 使 用 


这 是 非常 有 趣 的 部 分 。 有 了 训练 好 的 模型 ,我 们 可 以 开始 尝试 各 种 样本 短语 ， 并 查看 模型 的 
表现 。 尝 试 欺骗 这 个 模型 吧 : 在 负 向 的 语 境 中 使 用 快乐 的 词 。 尝 试 长 短语 、 短 短语 、 了 矛盾 短语 。 
具体 做 法 参见 代码 清单 9-6 和 代码 清单 9-7。 











代码 清单 9-6 ”重新 加 载 LSTM 模型 





>>> from keras.models import model from json 

>>> with open("lstm_modell.json", "r") as json file: 
a json string = json_file.read() 

>>> model = model_from_json(json_string) 


>>> model.load_weights('lstm_weights1.h5') 


代码 清单 9-7 ”使 用 模型 预测 一 个 样本 





>>> sample 1 = """I hate that the dismal weather had me down for so long, 
when will it break! Ugh, when does happiness return? The sun is 
blinding and the puffy clouds are too thin. I can't wait for the 








weekend.""" 
>>> vec_list = tokenize_and_vectorize([(l, sample_1)]) << 
>>> test_vec_list = pad_trunc(vec_list, maxlen) ar CE 
表 (这 里 长 度 为 1) 








>>> test vec = np.reshape (test vec list, 
(len(test_vec_list), maxlen, embedding dims)) 


为 元 组 的 第 一 个 元 素 传递 一 个 虚 











>>> print ("Sample's sentiment, 1 - pos, 2 - neg: {}"\ 值 ， 因 为 辅助 函数 希望 像 处 理 初始 
ete . format (model.predict_classes (test_vec) ) ) > pe 3 ap we 
n AE AE sb ners Sah lak aera soar 数据 一 样 处 理 新 传人 的 样本 。 这 个 








ae 值 和 网 络 无 关 ， 所 以 它 可 以 是 任何 
东西 


Sample's sentiment, 1 - pos, 2 - neg : 
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>>> print ("Raw output of sigmoid function: {}"\ 
3 . format (model.predict (test_vec) ) ) 
Raw output of sigmoid function: [[ 0.2192785]] 


当 我 们 尝试 各 种 可 能 性 时 ， 除 离散 的 情感 分 类 之 外 ， 还 需要 观察 sigmoid 函数 的 原始 输出 。 
不 同 于 .predict class () 方 法 ，.predict () 方 法 在 设置 阔 值 之 前 显示 原始 的 sigmoid 激活 
函数 输出 结果 ， 因 此 我 们 可 以 看 到 0 到 1 之 间 的 一 个 连续 值 。 任 何 输出 值 大 于 0.5 的 语句 都 归 为 
正 向 类 ， 小 于 0.5 的 都 归 为 负 向 类 。 当 我 们 尝试 不 同样 本 时 ， 我 们 将 了 解 模型 对 其 预测 的 信心 有 
多 强 ， 这 将 有 助 于 分 析 我 们 的 抽查 结果 。 

密切 关注 分 类 错误 的 样本 ( 正 向 的 和 负 向 的 )。 如 果 sigmoid 输出 接近 0.5， 就 意味 着 对 于 这 
个 样本 , 模型 只 是 在 随机 抛 硬币 。 然 后 , 我 们 可 以 查看 为 什么 这 个 短语 对 模型 来 说 是 模糊 的 , 但 
是 请 不 要 用 人 类 的 思维 看 待 它 的 表现 。 把 我 们 的 人 类 直觉 和 主观 观点 放 在 一 边 , 试 着 从 统计 学 的 
角度 思考 。 试 着 回想 我 们 的 模型 “看 到 ”了 什么 文档 。 这 个 被 分 类 错误 的 样本 中 出 现 的 词 是 否 罕 
见 ? 它们 是 在 我 们 的 语料库 中 罕见 , 还 是 在 为 我 们 训练 语言 模型 的 语料库 中 罕见 ?该 样本 中 的 所 
有 词 是 否 都 存在 于 模型 的 词汇 表 中 ? 

通过 这 个 过 程 来 检查 概率 ， 并 输入 预测 错误 的 数据 ， 这 将 有 助 于 我 们 建立 机 器 学 习 的 直觉 ， 
这 样 我 们 就 可 以 在 未 来 构建 更 好 的 NLP 流水 线 。 这 是 通过 人 脑 “ 反 向 传播 ”来 解决 模型 调 优 问 
题 的 办 法 。 






























































9.1.3 BEZA 


这 个 功能 更 强大 的 模型 仍然 有 大 量 的 超 参 数 可 以 尝试 。 但 现在 我 们 先 暂停 一 下 ,回顾 一 下 开 
台 时 的 数据 。 从 使 用 卷 积 神经 网 络 开始 , 我 们 就 一 直 在 使 用 相同 的 数据 ， 以 完全 相同 的 方式 进行 
人 处理 , 这 样 我 们 就 可 以 看 到 模型 类 型 的 变化 以 及 在 给 定数 据 集 上 的 性 能 表现 。 但 是 我 们 确实 做 出 
了 一 些 损害 数据 完整 性 的 选择 ， 或 者 说 弄 脏 了 数据 。 

将 每 个 样本 填充 或 截断 到 400 个 词 条 对 于 卷 积 网 络 非常 重要 , 这 样 过 滤器 (filter ) 就 可 以 “ 扫 
描 ” 长 度 一 致 的 向 量 。 卷 积 网 络 也 能 输出 一 个 长 度 一 致 的 向 量 。 对 输出 来 说 ， 保 持 维 数 的 一 致 是 
很 重要 的 ， 因为 在 链 的 末端 , 输出 将 进入 一 个 全 连接 的 前 馈 层 , 这 个 前 馈 层 需 要 一 个 固定 长 度 的 
向 量 作 为 输入 。 

类 似 地 , 我 们 的 循环 神经 网 络 的 实现 , 包括 简单 的 RNN 和 LSTM, 都 在 努力 构造 一 个 固定 长 度 
的 思想 向 量 ， 我 们 可 以 将 其 传递 到 一 个 前 馈 层 进行 分 类 。 一 个 对 象 的 固定 长 度 的 向 量 表示 ， 如 思想 
YEE, TABATA (embedding )。 因 此 ， 思 想 向 量 的 大 小 是 相同 的 ， 我 们 必须 将 网 络 展 开 至 
相同 的 时 刻 〈 词 条 ) 数 。 让 我 们 看 看 将 网 络 展开 为 400 个 时 刻 的 选择 如 何 ， 如 代码 清单 9-8 所 示 。 
























































代码 清单 9-8 优化 思想 向 量 大 小 





>>> def test_len(data, maxlen): 
total_len = truncated = exact = padded = 0 
for sample in data: 
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total_len += len(sample) 

if len(sample) > maxlen: 
truncated += 1 

elif len(sample) < maxlen: 
padded += 1 

else: 
exact +=1 





print ('Padded: {}'.format (padded) ) 

print('Equal: {}'.format (exact) ) 

print ('Truncated: {}'.format (truncated) ) 
print('Avg length: {}'.format (total_len/len (data) )) 


>>> dataset = pre_process data('./aclimdb/train') 
>>> vectorized data = tokenize and vectorize (dataset) 
>>> test_len(vectorized_data, 400) 

Padded: 22559 

Equal: 12 

Truncated: 2429 

Avg length: 202.4424 


好 吧 ，400 确实 是 一 个 有 点 儿 偏 高 的 数字 ( 可 能 早 就 该 做 这 个 分 析 了 )。 我 们 将 maxlen 调 
回 到 202 个 词 条 左右 (平均 样本 大 小 ), 我 们 取 其 四 多 五 入 值 , 即 200 个 词 条 , 并 让 我 们 的 LSTM 
网 络 再 尝试 一 次 ， 如 代码 清单 9-9 至 代码 清单 9-11 所 示 。 


代码 清单 9-9 优化 LSTM 模型 超 参数 


>>> import numpy as np 





>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Dropout, Flatten, LSTM 


eae aiid 所 有 代码 和 之 前 一 样 ， 但 是 我 们 


>>> batch size = 32 
pe jl =p fa TE 4 20 个 词 条 
>>> embedding dims = 300 限制 最 大 长 度 为 200 个 词 条 


>>> epochs = 2 
>>> num neurons = 50 





>>> dataset = pre_process data('./aclimdb/train') 
>>> vectorized data = tokenize and vectorize (dataset) 
>>> expected = collect_expected (dataset) 

>>> split_point = int (len(vectorized_data)*.8) 

>>> x_train = vectorized_data[:split_point] 

>>> y_train = expected[:split_point] 


>>> x_test = vectorized_data[split_point:] 
>>> y_test = expected[split_point:] 


>>> x_train = pad_trunc(x_train, maxlen) 
>>> x_test = pad_trunc(x_test, maxlen) 
>>> x_train = np.reshape(x_train, (len(x_train), maxlen, embedding_dims) ) 


>>> y_train = np.array(y_train) 
>>> x_test = np.reshape(x_test, (len(x_test), maxlen, embedding_dims) ) 
>>> y_test = np.array(y_test) 
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RBS 9-10 A TANKI LSTM 





>>> model = Sequential () 

>>> model.add(LSTM(num_neurons, return_sequences=True, 

ae. input_shape=(maxlen, embedding_dims) ) ) 

>>> model.add (Dropout (.2)) 

>>> model.add (Flatten () ) 

>>> model.add (Dense (1, activation='sigmoid')) 

>>> model.compile('rmsprop', 'binary_crossentropy', metrics=['accuracy']) 
>>>model.summary () 











Layer (type) Output Shape Param # 
lstm 1 (STH) (None, 200, 50) oo 
dropout_1 (Dropout) (None, 200, 50) 0 

flatten 1 (Flatten) (None, 10000) 0 

dense 1 (Dense) (None, 1) 10001 


Total params: 80,201.0 
Trainable params: 80,201.0 
Non-trainable params: 0.0 


代码 清单 9-11 训练 一 个 更 小 的 LSTM 





>>> model.fit(x_train, y_train, 
batch_size=batch_size, 
epochs=epochs, 

ace validation_data=(x_test, y_test) ) 

Train on 20000 samples, validate on 5000 samples 


Epoch 1/2 

20000/20000 [==============================] - 245s - loss: 0.4742 - 
acc: 0.7760 - val_loss: 0.4235 -= val acc: 0.8010 

Epoch 2/2 

20000/20000 [==============================] - 203s - loss: 0.3718 - 


acc: 0.8386 = val_loss: 0.3499 = val_acc: 0.8450 


>>> model_structure = model.to_json() 
>>> with open("lstm_model7.json", "w") as json file: 
json_file.write (model_structure) 


>>> model.save_weights ("lstm_weights7.h5") 


这 样 训练 的 速度 更 快 ， 验 证 精确 率 下 降 了 不 到 1% (84.5% 相 比 于 85.16% )。 只 使 用 一 半 时 刻 的 
样本 ， 但 我 们 将 训练 时 间 减 少 一 半 以 上 ! 只 有 一 半 的 LSTM 时 刻 需 要 计算 ， 并 且 在 前 馈 层 中 只 有 一 
半 的 权重 需要 学 习 。 但 最 重要 的 是 ， 反 向 传播 每 次 只 需 走 一 半 的 距离 ( 只 需 一 半 的 时 刻 回 到 过 去 )。 

然而 , 精确 率 变 低 了 。 一 个 200 维 模型 不 是 比 之 前 的 400 维 模 型 的 泛 化 能 力 更 好 ( 过 拟 合 更 
少 ) 吗 ? 这 是 因为 我 们 在 这 两 个 模型 中 都 包含 了 一 个 dropout 层 。dropout 层 有 助 于 防止 过 拟 合 ， 
因此 当 我 们 减 小 模型 的 自由 度 或 减少 训练 周期 数 时 ， 验 证 精确 率 只 会 变 得 更 低 。 
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由 于 神经 网 络 的 强大 功能 以 及 它们 学 习 复杂 模式 的 能 力 ， 人 们 时 常 忘记 ， 一 个 设计 良好 的 神经 网 
络 善于 学 习 丢 弃 噪 声 和 系统 俩 差 。 我 们 把 所 有 那些 零 向 量 都 加 进来 ,无 意 中 给 数据 带 来 了 很 大 的 侦 差 。 
即使 所 有 输入 都 为 零 向 量 ， 每 个 节点 的 偏 置 项 元 素 也 仍然 会 给 它 一 些 信号 。 但 最 终 ， 网 络 将 学 会 完全 
忽略 这 些 元 素 〈 会 将 偏 置 项 元 素 的 权重 特别 调整 为 零 )， 从 而 专注 于 样本 中 包含 有 意义 信息 的 部 分 。 

所 以 优化 后 的 LSTM 虽然 没 能 学 到 更 多 信息 , 但 是 它 可 以 学 得 更 快 。 但 是 , 这 里 最 重要 的 一 点 是 
要 注意 测试 集 样本 的 长 度 与 训练 集 样本 的 长 度 有 关 。 如 果 我 们 的 训练 集 是 由 数 千 个 词 条 长 的 文档 组 成 
的 ， 那么 将 只 有 3 个 词 条 长 的 文档 填充 到 1000 个 词 条 就 可 能 无 法 得 到 一 个 精确 的 分 类 结果 。 反 之 ， 
将 一 个 1000 个 词 条 的 文档 截断 到 3 个 词 条 ， 对 于 在 3 个 词 条 长 的 文档 中 训练 的 小 模型 同样 也 会 造成 
困扰 。 当 然 ， 这 并 不 是 说 LSTM 不 能 处 理 好 这 种 情况 ， 只 是 提醒 大 家 在 做 实验 时 需要 注意 这 一 点 。 


































































































9.1.4 “未 知 ” 词 条 的 处 理 


在 数据 处 理 方面 ， 什 么 可 能 会 成 为 巨大 的 麻烦 呢 ? 管 案 是 直接 丢弃 “未 知 ” 词 条 。“ 未 知 ” 
词 条 基本 上 就 是 在 预 训练 的 Word2vec 模型 中 找 不 到 的 词 , 其 列表 非常 大 。 直接 丢弃 这 么 多 数据 ， 
尤其 是 试图 对 词 序 列 建 模 时 ， 通 常会 造成 很 大 的 问题 。 

当 词 能 入 词汇 表 中 不 包含 “不 ”( don't ) 这 个 词 时 ， 类 似 于 这 样 的 句子 : 


















































I dont like this movie. 
( 我 不 喜欢 这 部 电影 。) 
可 能 会 变 成 
I like this movie. 
(我 喜欢 这 部 电影 。) 
当然 ,这 个 例子 在 实际 Word2vec 词 朋 入 模型 中 并 不 存在 ,但 是 Word2vec 中 确实 忽略 了 许多 词 条 ， 
这 些 词 条 可 能 对 我 们 很 重要 ,也 可 能 不 重要 。 丢 弃 这 些 未 知 词 条 是 一 种 处 理 策略 , 但 是 还 有 其 他 
策略 可 选 。 我 们 可 以 使 用 或 训练 一 个 词 骨 入 模型 ,该 模型 中 的 每 一 个 词 条 都 会 对 应 一 个 向 量 , 但 
是 这 样 做 会 付出 昂贵 的 代价 。 
有 两 种 常见 的 方法 可 以 在 不 增加 计算 需求 的 情况 下 提供 更 好 的 结果 。 这 两 种 方法 都 涉及 用 新 
的 向 量 表示 替代 未 知 的 词 条 。 第 一 种 方法 是 反 直 觉 的 : 对 于 没有 由 向 量 建 模 的 每 个 词 条 ， 从 现 有 
词 艇 入 模型 中 随机 选择 一 个 向 量 并 使 用 它 。 我 们 可 以 很 容易 地 看 出 ， 这 会 使 人 类 读者 感到 困惑 。 
一 个 类 似 于 这 样 的 句子 : 
The man who was defenestrated, brushed himself off with a nonchalant glance back inside. 


( 那 名 被 丢 出 窗外 的 男子 拂 去 了 衣衫 上 的 灰尘， 若无其事 地 回头 看 了 里 面 一 眼 。) 
可 能 会 成 为 
The man who was duck, brushed himself off with a airplane glance back inside. 


( 那 名 是 鸭子 的 男子 ， 拂 去 了 衣衫 上 的 灰尘， 用 飞机 回头 看 了 里 面 一 眼 。) 
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一 个 模型 如 何在 这 样 的 胡言 乱 语 中 学 习 ? 事实 证 明 , 模型 确实 解决 了 这 些小 问题 ， 就 像 在 之 
前 的 示例 中 我 们 不 管 它 一 样 。 记 住 , 我 们 并 不 是 要 显 式 地 对 训练 集中 的 每 个 语句 建 模 。 我 们 的 目 
标 是 在 训练 集中 创建 一 种 通用 的 语言 模型 。 这 样 就 会 存在 一 些 异 常 值 , 但 我 们 不 希望 存在 太 多 的 
异常 值 以 至 于 描述 主要 语言 模式 时 偏离 模型 。 

第 二 种 也 是 更 常见 的 方法 是 , 在 重 构 原始 输入 时 , 用 一 个 特定 的 词 条 替换 词 向 量 库 中 没有 的 
所 有 词 条 ,这 个 特定 的 词 条 通常 称 为 “UNK”( 未 知 词 条 )。 这 个 向 量 本 身 要 么 是 在 对 原始 襄 入 建 
模 时 选择 的 ， 要 么 是 随机 选择 的 〈 理想 情况 是 远离 空间 中 已 知 的 向 量 )。 

与 填充 一 样 ， 网 络 可 以 学 习 如 何 绕 过 这 些 未 知 的 词 条 ， 并 围绕 它们 得 出 自己 的 结论 。 






























































9.1.5 ”字符 级 建 模 


词 是 有 含义 的 一 一 我 们 都 同意 这 一 点 。 用 这 些 基 本 的 模块 来 对 自然 语言 建 模 看 起 来 很 自然 。 
使 用 这 些 模型 从 原子 结构 的 角度 来 描述 含义 、 情 感 、 意 图 和 其 他 一 切 似乎 也 很 自然 。 但 是 , 当然 ， 
词根 本 就 不 是 原子 性 的 。 如 前 所 述 ， 它 们 由 单位 更 小 的 词 、 词 干 、 音 素 等 组 成 。 但 更 重要 的 一 点 
是 ， 它 们 更 基本 地 也 都 是 由 一 系列 字符 构成 的 。 
在 对 语言 建 模 时 ， 许 多 含义 隐藏 在 字符 里 面 。 语 音 语 调 、 头 韵 、 韵 律 一 一 如 果 我 们 把 它们 分 
解 到 字符 级 别 ， 可 以 对 所 有 这 些 建 模 。 人 类 不 需要 分 解 得 如 此 细致 就 可 以 为 语言 建 模 。 但是， 从 
建 模 中 产生 的 定义 非常 复杂 ， 并 不 容易 传授 给 机 器 ,这 就 是 我 们 讨论 这 个 问题 的 原因 。 对 于 我 们 
见 过 的 字符 ， 当 我 们 查看 文本 中 哪个 字符 出 现在 哪个 字符 后 面 时 ,可 以 发 现 文本 中 的 许多 固有 的 
模式 。 

在 这 个 范式 中 , 空格、 逗号 或 句号 都 变 成 了 男 一 个 字符 。 当 网 络 从 序列 中 学 习 含 义 时 ， 如 果 
我 们 把 它们 分 解 成 单个 的 字符 , 模型 就 会 被 迫 来 寻找 这 些 更 低层 级 的 模式 。 当 注意 到 有 一 些 音节 
后 面 是 重复 的 , 这 可 能 是 押韵 的 后 级， 可 能 是 一 种 带 有 意义 的 模式 , 或 许 代 表 着 愉快 或 嘲笑 的 情 
感 。 随 着 学 习 了 足够 大 的 训练 集 ， 这 些 模式 开始 显现 。 因 为 英语 中 不 同 的 字母 比 词 要 少 得 多 , 所 
以 需要 关心 的 输入 向 量 相 对 也 就 少 了 。 

然而 , 在 字符 级 别 训练 模型 仍 是 很 棘手 的 。 在 字符 级 别 发 现 的 模式 和 长 期 依赖 关系 在 不 同 的 
语调 中 可 能 会 有 很 大 的 差异 。 我 们 或 许可 以 找到 这 些 模 式 ， 但 它们 可 能 不 具有 泛 化 性 。 让 我 们 在 
同一 样本 数据 集中 , 在 字符 级 别 上 尝试 LSTM。 首 先 ,我 们 需要 用 不 同 的 方式 处 理 数据 。 与 前 面 
一 样 ， 获 取 数 据 并 通过 标签 进行 排序 ， 如 代码 清单 9-12 所 示 。 


代码 清单 9-12 ”准备 数据 


>>> dataset = pre_process data('./aclimdb/train') 
>>> expected = collect_expected (dataset) 


然后 需要 决定 将 网 络 展开 至 多 远 ， 所 以 我 们 需要 观察 数据 样本 中 平均 有 多 少 个 字符 ， 如 代码 清 
单 9-13 所 示 。 
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代码 清单 9-13 ”计算 样本 平均 长 度 





>>> def avg len (data): 
total len = 0 
for sample in data: 
total_len += len(sample[1]) 
return total len/len (data) 


>>> avg_len (dataset) 
1325.06964 


所 以 我 们 立即 就 能 知道 网 络 将 要 被 展开 得 更 远 , 并 且 我 们 需要 等 很 长 时 间 才能 训练 完成 这 个 
模型 。 剧 透 一 下 : 这 个 模型 除 过 拟 合 之 外 什么 都 没 做 ， 但 是 它 提供 了 一 个 有 趣 的 例子 。 

接 下 来 ， 我 们 需要 清除 一 些 与 文本 的 自然 语言 无 关 的 词 条 数据 。 此 函数 过 滤 出 了 数据 集中 
HTML 标签 中 的 一 些 无 用 字符 。 实 际 上 , 数据 应 该 被 更 彻底 地 清洗 。 具体 做 法 参见 代码 清单 9-14。 








代码 清单 9-14 ”准备 基于 字符 模型 的 字符 串 





>>> def clean data (data): 
"""Shift to lower case, replace unknowns with UNK, and listify""" 
new_data = [] 
VALID = 'abcdefghijklmnopaqrstuvwxyz0123456789"\'?!.,:; ' 
for sample in data: 
new_sample = [] 


f h i le[1].1 5 
or char in sample[1].lower () RIOR ATE f 


if char in VALID: 
需要 标签 
new_sample.append (char) 不 需要 标签 


else: 
new_sample.append ('UNK') 
new_data.append (new_sample) 
return new data 


Ld 








>>> listified data = clean_data (dataset) 


我 们 使 用 了 'UNK' 表示 列表 中 所 有 不 出 现在 VALID 列表 中 的 单个 字符 。 
然后 , 与 前 面 一 样 , 将 样本 填充 或 截断 到 指定 的 maxlen KE, 这里, 我 们 引入 了 另 一 个 用 
于 填充 的 “单字 符 ” 一 一 ' PAD' 。 具 体 做 法 参见 代码 清单 9-15。 


代码 清单 9-15 ”填充 和 截断 字符 





>>> def char_pad_trunc(data, maxlen=1500): 
"»"" We truncate to maxlen or add in PAD tokens """ 
new_dataset = [] 
for sample in data: 
if len(sample) > maxlen: 
new_data = sample[:maxlen] 
elif len(sample) < maxlen: 
pads = maxlen - len(sample) 
new_data = sample + ['PAD'] * pads 
else: 
new_data = sample 
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new_dataset.append (new_data) 
return new_dataset 


我 们 选择 1500 作为 maxlen 来 获得 比 平均 样本 长 度 略 多 的 样本 数据 ， 但 是 我 们 应 该 尽量 避 
免 使 用 会 带 来 过 多 噪声 的 PAD。 考 虑 词 的 长 度 会 帮助 我 们 做 出 选择 。 在 固定 的 字符 长 度 下 ， 与 完 
全 由 简单 的 单 音 节 词 组 成 的 样本 相 比 , 具有 大 量 长 词 的 样本 可 能 被 从 采样 。 与 所 有 机 器 学 习 问题 
一 样 ， 了 解数 据 集 和 它 的 输入 、 输 出 非常 重要 。 

这 一 次 ， 我 们 将 使 用 独 热 编码 字符 ， 而 不 是 使 用 Word2vec。 因 此 ， 我 们 需要 创建 一 个 词 条 
(字符 ) 字典 ， 该 字典 被 映射 到 一 个 整数 索引 。 我 们 还 将 创建 一 个 字典 来 映射 相反 的 内 容 ， 稍 后 
将 详细 介绍 。 具 体 做 法 参见 代码 清单 9-16。 





代码 清单 9-16 ”基于 字符 的 模型 “字典 ” 


>>> def create dicts (data): 
""" Modified from Keras LSTM example""" 
chars = set() 
for sample in data: 
chars.update (set (sample) ) 
char_indices = dict((c, i) for i, c in enumerate (chars) ) 
indices char = dict((i, c) for i, c in enumerate (chars) ) 
return char_indices, indices char 


然后 可 以 使 用 该 字典 来 建立 索引 的 输入 向 量 ， 而 不 是 词 条 本 身 ， 如 代码 清单 9-17 和 代码 清 
单 9-18 所 示 。 





代码 清单 9-17 ”字符 的 独 热 编码 


>>> import numpy as np 





>>> def onehot_encode (dataset, char indices, maxlen=1500): 


wwe 


One-hot encode the tokens 


Args: 
dataset list of lists of tokens 
char_indices 
dictionary of {key=character, 
value=index to use encoding vector} 
maxlen int Length of each sample 
Return: 
np array of shape (samples, tokens, encoding length) 
X = np.zeros((len(dataset), maxlen, len(char_indices.keys()))) 
for i, sentence in enumerate (dataset): 
for t, char in enumerate(sentence): 
X[i, t, char_indices[char]] = 


一 个 长 度 等 于 数据 样本 数量 的 numpy 数组 一 一 
每 个 样本 有 maxlen 个 词 条 数 ， 每 个 词 条 是 一 个 
长 度 等 于 字符 数量 的 独 热 编码 向 量 


return X 
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代码 清单 9-18 ”加载 和 预 处 理 IMDB 数据 





>>> dataset = pre_process_data('./aclimdb/train') 
>>> expected = collect_expected (dataset) 
>>> listified_data = clean data(dataset) 


>>> common_length_data = char_pad_trunc(listified_data, maxlen=1500) 
>>> char_indices, indices_char = create_dicts (common_length_data) 
>>> encoded_data = onehot encode (common length data, char_indices, 1500) 


然后 如 之 前 章节 一 样 划 分 数据 ， 如 代码 清单 9-19 和 代码 清单 9-20 所 示 。 


代码 清单 9-19 ”将 数据 集 划分 为 训练 集 ( 80% ) 和 测试 集 ( 20% ) 





>>> split_point = int (len(encoded_data) *.8) 


>>> x_train = encoded_data[:split_point] 
>>> y_train = expected[:split_point] 
>>> x_test = encoded_data[split_point:] 
>>> y_test = expected[split_point:] 





>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Dropout, Embedding, Flatten, LSTM 


>>> num_neurons = 40 
>>> maxlen = 1500 
>>> model = Sequential () 


>>> model.add(LSTM(num_neurons, 
return_sequences=True, 
input_shape=(maxlen, len(char_indices.keys())))) 
el.add (Dropout (.2) ) 
el.add (Flatten ()) 
el.add(Dense(1, activation='sigmoid')) 
>>> model.compile('rmsprop', 'binary_crossentropy', metrics=['accuracy']) 
e 
t 

















>>> model.summary () 

Layer (type) Output Shape Param # 
istm2 (ISTH) (None, 1500, 40) 13920 
dropout_2 (Dropout) (None, 1500, 40) 0 

flatten_2 (Flatten) (None, 60000) 0 

dense 2 (Dense) (None, 1) 60001 


Total params: 73,921.0 
Trainable params: 73,921.0 
Non-trainable params: 0.0 


这 样 ， 我 们 在 构建 LSTM 模型 方面 变 得 更 加 高 效 。 我 们 最 新 的 基于 字符 的 模型 只 需要 训练 
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7.4 万 个 参数 ， 而 优化 后 的 基于 词 的 LSTM 需要 训练 8 万 个 参数 。 这 个 简单 的 模型 应 该 训练 得 更 
快 ， 并 能 更 好 地 推广 到 新 文本 ， 因 为 它 具 有 较 小 的 过 拟 合 自由 度 。 

现在 我 们 可 以 尝试 一 下 ， 看 看 基于 字符 的 LSTM 模型 需要 提供 什么 参数 ， 如 代码 清单 9-21 
和 代码 清单 9-22 所 示 。 


代码 清单 9-21 训练 基于 字符 的 LSTM 网 络 





>>> batch_size = 32 

>>> epochs = 10 

>>> model.fit(x_train, y_train, 
batch_size=batch_size, 
epochs=epochs, 

7 validation_data=(x_test, y_test) ) 

Train on 20000 samples, validate on 5000 samples 





























Epoch 1/10 

20000/20000 [==============================] - 634s - loss: 0.6949 - 
acc: 0.5388 = val_loss: 0.6775 = yal acc: 0.5738 

Epoch 2/10 

20000/20000 [==============================] - 668s - loss: 0.6087 - 
acc: 0.6700 - val_loss: 0.6786 - val_acc: 0.5962 

Epoch 3/10 

20000/20000 [==============================] - 695s - loss: 0.5358 - 
acc: 0.7356 - val_loss: 0.7182 - val_acc: 0.5786 

Epoch 4/10 

20000/20000 [==============================] - 686s - loss: 0.4662 - 
acc: 0.7832 = val_loss: 0.7605 = val_acc: 0.5836 

Epoch 5/10 

20000/20000 - 694s - loss: 0.4062 - 
acc: 0.8206 35852 

Epoch 6/10 

20000/20000 [==============================] - 694s - loss: 0.3550 - 
acc: 0.8448 - val_loss: 0.8851 - val_acc: 0.5842 

Epoch 7/10 

20000/20000 [==============================] - 645s - loss: 0.3058 - 
acc: 0.8705 - val_loss: 0.9598 = val_acc: 0.5930 

Epoch 8/10 

20000/20000 [==============================] - 684s - loss: 0.2643 - 
acc: 0.8911 - val_loss: 1.0366 - val_acc: 0.5888 

Epoch 9/10 

20000/20000 [==============================] - 671s - loss: 0.2304 - 
acc: 0.9055 - val_loss: 1.1323 - val_acc: 0.5914 

Epoch 10/10 

20000/20000 [==============================] - 663s - loss: 0.2035 - 
ace? 0.9181 = val losss 1.2051 = valtace: 0.5948 


代码 清单 9-22 ”保存 模型 


>>> model_structure = model.to_json() 

>>> with open("char_lstm_model3.json", "w") as json_file: 
json_file.write (model_structure) 

>>> model.save_weights ("char_lstm_weights3.h5") 
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92% 的 训练 集 精确 率 与 59% 的 验证 精确 率 表明 模型 出 现 了 过 拟 合 。 模型 开始 缓慢 地 学 习 训 练 
集 的 情感 。 天 哪 ! 真 的 耗 时 太 久 了 ! 在 没有 GPU 的 现代 笔记 本 电脑 上 ， 它 花费 了 超过 1.5 小 时 
的 时 间 。 但 是 验证 精确 率 却 没有 比 随机 猜测 提高 多 少 , 在 后 期 的 训练 周期 中 , 它 开始 变 得 更 糟糕 ， 
我 们 也 可 以 在 验证 的 损失 中 看 到 这 一 点 。 

这 可 能 是 很 多 情况 导致 的 。 对 数据 集 来 说 , 该 模型 可 能 过 于 强大 , 这 意味 着 它 有 足够 的 参数 ， 
可 以 为 训练 集 的 20 000 个 样本 特有 的 模式 进行 建 模 ， 但 对 于 关注 情感 的 通用 语言 模型 则 没有 用 
处 。 如 果 LSTM 网 络 层 的 dropout 百分率 更 高 或 神经 元 更 少 ， 这 一 问题 可 能 会 得 到 缓解 。 如 果 我 
们 认为 模型 定义 的 参数 量 过 于 庞大 , 那么 更 多 的 标注 数据 也 会 有 所 帮助 。 但 是 高 质量 的 标注 数据 
通常 是 最 难 获 得 的 。 

最 后 , 与 词 级 LSTM 模型 , 其 至 前 几 间 中 的 卷 积 神经 网 络 相 比 , 这 个 回报 有 限 的 模型 在 硬件 
和 时 间 上 带 来 了 巨大 的 开销 。 那么 为 什么 还 要 考虑 使 用 字符 级 LSTM 模型 呢 ? 如 果 有 更 多 、 更 广 
泛 的 数据 集 ， 则 字符 级 模型 会 非常 擅长 对 语言 建 模 。 或 者 说 ， 在 提供 一 套 专项 领域 的 训练 集 时 ， 
它 能 为 一 种 特定 的 语言 类 型 建 模 ， 例 如 从 某 一 位 作者 那里 学 习 ， 而 不 是 从 数 千 名 作者 那里 学 习 。 
无 论 如 何 ， 我 们 已 经 迈 出 了 用 神经 网 络 生成 新 文本 的 第 一 步 。 






























































































































































9.1.6 ”生成 聊天 文字 


如 果 能 以 特定 的 “风格 ”或 “看 法 ”生成 新 的 文本 ,我 们 肯定 会 拥有 一 个 非常 有 趣 的 聊天 机 
器 人 。 当 然 , 能够 生成 具有 给 定 风格 的 新 文本 并 不 能 保证 聊天 机 器 人 会 谈论 我 们 希望 它 谈论 的 事 
情 。 但 是 , 我 们 可 以 使 用 这 种 方法 在 给 定 的 一 组 参数 中 生成 大 量 文本 ( 例如 响应 某 类 用 户 的 风格 )， 
然后 对 于 一 个 给 定 的 查询 ， 可 以 基于 这 个 新 的 、 更 大 的 文本 语料库 索引 和 搜索 最 有 可 能 的 回复 。 

就 像 一 个 马尔 可 夫 链 (Markov chain )， 根 据 出 现在 1-gram、2-gram 或 者 n-gram 后 的 词 ， 预 
测序 列 将 要 出 现 的 下 一 个 词 ， LSTM 模型 也 可 以 基于 它 刚 刚 看 到 的 词 , 学习 预测 下 一 个 词 出 现 的 
概率 ， 这 就 是 记忆 带 来 的 好 处 ! 马尔 可 夫 链 只 使 用 n-gram 以 及 在 n-gram 之 后 出 现 的 词 的 频率 信 
息 来 进行 搜索 。RNN 模型 也 做 了 类 似 的 事情 ， 它 基于 前 几 项 的 下 一 项 的 信息 进行 编码 ， 但 是 有 
了 LSTM 的 记忆 状态 , 模型 可 以 在 更 大 的 上 下 文中 判断 最 合适 的 下 一 项 。 最 令 人 兴奋 的 是 , 我 们 
可 以 根据 之 前 文档 出 现 过 的 字符 来 预测 下 一 个 字符 。 这 种 粒度 级 别 超出 了 基本 的 马尔 可 夫 链 。 

我 们 如 何 训练 模型 来 完成 这 项 魔术 操作 呢 ? 首先 ,我 们 搬 开 分 类 任务 。LSTM 模型 学 习 的 真 
正 核心 是 LSTM 元 胞 本 身 , 但 是 我 们 却 是 在 围绕 特定 分 类 任务 的 成 功 和 失败 来 训练 模型 。 这 种 方 
法 不 一 定 能 帮助 我 们 的 模型 学 习 语言 的 一 般 表示 形式 。 我 们 训练 它 只 关注 那些 包含 了 强烈 情感 的 
序列 。 

因此 , 我 们 应 该 使 用 训练 样本 本 身 ， 而 不 是 使 用 训练 集 的 情感 标签 来 作为 学 习 的 目标 ! 对 于 
样本 中 的 每 个 词 条 , 我们 希望 LSTM 模型 能 学 会 预测 下 一 个 词 条 (如 图 9-10 所 示 )。 这 与 第 6 章 
中 使 用 的 词 向 量 般 入 方法 非常 相似 ， 只 是 我 们 将 通过 2-gram 而 不 是 skip-gram 来 训练 网 络 。 以 这 
种 方式 训练 的 词 生成 器 模型 ( 如 图 9-10 所 示 ) 可 以 很 好 地 工作 ， 言 归 正 传 ， 我 们 使 用 这 个 方法 
可 以 直接 获得 字符 级 别 的 表示 〈 如 图 9-11 所 示 )。 
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隐藏 层 隐藏 层 隐藏 层 隐藏 层 隐藏 层 隐藏 层 隐藏 层 


CO (=) 


预期 输出 是 样本 中 的 下 一 个 词 条 。 这 是 
图 9-10 ”预测 下 一 个 词 





















实际 输出 


预期 输出 


预期 输出 是 样本 中 的 下 一 个 词 条 。 这 里 显示 的 是 字符 级 别 
图 9-11 ”预测 下 一 个 字符 





我 们 将 关心 每 一 个 时 刻 的 输出 , 而 不 是 最 后 一 个 时 刻 输出 得 到 的 思想 向 量 。 误差 仍然 会 由 每 
一 个 时 刻 随时 间 反 向 传播 回 到 开始 时 刻 , 但 是 误差 是 由 每 个 时 刻 级 别 的 输出 确定 的 。 在 某 种 意义 
上 ， 本 章 的 其 他 LSTM 分 类 器 中 也 是 这 样 的 ， 但 是 在 其 他 分 类 器 中 ， 直 到 序列 末尾 才 确 定 误 差 。 
只 有 在 序列 的 末尾 ， 才 有 一 个 聚合 的 输出 用 来 输入 链 末 端的 前 馈 层 。 尽 管 如 此 ,， 反 向 传播 仍然 以 
相同 的 方式 工作 着 一 一 通过 调整 序列 末尾 的 所 有 权重 来 聚合 误差 。 

所 以 我 们 要 做 的 第 一 件 事 就 是 调整 训练 集 的 标签 。 输 出 向 量 对 比 的 不 是 给 定 的 分 类 标签 ,而 
是 序列 中 下 一 个 字符 的 独 热 编码 。 

我 们 可 以 回 到 更 简单 的 模型 。 这 次 我 们 不 是 试图 预测 每 个 后 续 字 符 , 而 是 预测 给 定 序列 的 下 
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一 个 字符 。 如 果 去 掉 关 键 字 参数 return_sequences=True ( 如 代码 清单 9-17 所 示 ), 这 与 
本 章 中 的 其 他 所 有 LSTM 层 完全 相同 。 这 样 做 将 使 LSTM 模型 聚焦 于 序列 中 最 后 一 个 时 刻 的 返 
EHE (如 图 9-12 所 示 )。 









给 定 字符 序列 ， 只 预测 下 一 个 字符 


预期 输出 
(在 本 例 中 ， 是 一 个 句号 ) 





图 9-12 ”只 预测 最 后 一 个 字符 


9.1.7 进一步 生成 文本 


简单 的 字符 级 建 模 是 通 向 更 复杂 模型 的 必 经 之 路 一 一 这 些 模型 不 仅 可 以 获取 拼写 等 细节 , 还 
可 以 获取 语法 和 标点 符号 。 真 正 神 奇 的 是 ， 当 这 些 模 型 学 习 这 些 语法 细节 时 ,它们 也 开始 学 习 文 
本 的 节奏 和 韵律 。 我 们 看 看 如 何 使 用 一 开始 是 用 于 分 类 的 模型 来 生成 一 些 新 的 文本 。 

Keras 文档 提供 了 一 个 很 好 的 例子 。 对 于 这 个 项 目 ， 我 们 将 保留 到 目前 为 止 使 用 的 电影 评论 
数据 集 。 对 于 寻找 像 音 调和 词 选 择 这 样 深奥 的 概念 ,该 数据 集 有 两 个 难以 解决 的 问题 。 首先 , 它 
是 多 样 化 的 。 它 是 由 许多 作者 写 的 ， 每 个 作者 都 有 自己 的 写作 风格 和 个 性 ， 找 到 他 们 之 间 的 共同 
点 十 分 困难 。 使 用 足够 大 的 数据 集 , 开发 一 个 能 够 处 理 多 种 样式 的 复杂 语言 模型 是 可 能 的 , 但 这 会 
导致 使 用 IMDB 数据 集 的 第 二 个 问题 ， 对 于 学 习 基于 字符 的 通用 语言 模型 ， 它 是 一 个 非常 小 的 数 
据 集 。 为 了 解决 这 个 问题 , 我 们 需要 一 个 在 样本 风格 和 音调 更 一 致 的 数据 集 , 或 者 一 个 大 得 多 的 数 
据 集 ， 我 们 会 选择 前 者 。Keras 的 示例 提供 了 弗 里 德里 希 . 尼采 (Friedrich Nietzsche ) 作品 的 一 个 
样本 。 这 很 有 趣 ， 但 我 们 将 选择 另 一 个 风格 独特 的 人 一 一 威廉 ， 莎士比亚 〈 William Shakespeare )。 他 
已 经 有 一 段 时 间 没 发 表 任何 作品 了 ， 我 们 来 帮 他 吧 。 具 体 做 法 参见 代码 清单 9-23。 























代码 清单 9-23 ”导入 古 腾 堡 计划 数据 集 





>>> from nltk.corpus import gutenberg 
>>> 
>>> gutenberg.fileids () 
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['austen-emma.txt', 
"austen-persuasion.txt', 
"austen-sense.txt', 
"bible-kjv.txt', 
"blake-poems.txt', 
‘bryant-stories.txt', 
"burgess-busterbrown.txt', 
‘carroll-alice.txt', 
'chesterton-ball.txt', 
"chesterton-brown.txt', 
'chesterton-thursday.txt', 
"edgeworth-parents.txt', 
'melville-moby_dick.txt', 
'milton-paradise.txt', 
"shakespeare-caesar.txt', 
"shakespeare-hamlet.txt', 
"shakespeare-macbeth.txt', 
'whitman-leaves.txt'] 


上 面 给 出 的 是 莎士比亚 的 3 部 戏剧 。 我 们 将 获取 它们 的 资源 ,并 将 它们 拼接 到 一 个 大 字符 串 
中 ， 这 一 过 程 参见 代码 清单 9-24。 





代码 清单 9-24 ” 预 处 理 莎士比亚 的 戏剧 





>>> text = '! 


>>> for txt in gutenberg.fileids(): 拼接 NLTK 的 古 腾 保 语料库 中 
eee if 'shakespeare' in txt: 所 有 的 莎士比亚 戏剧 


wis text += gutenberg.raw(txt) .lower () 
>>> chars = sorted(list (set (text) ) ) 





























>>> char_indices = dict((c, i) 为 索引 建立 一 个 字符 字典 ， 
er for i, c in enumerate (chars) ) 以 便 在 独 热 编 码 中 引用 
>>> indices char = dict((i, c) 
for i, c in enumerate (chars) ) < 
>>> 'corpus length: {} total chars: {}'.format (len (text), len(chars) ) 


"corpus length: 375542 total chars: 50' 
把 一 个 独 热 编码 解释 回 字 符 
时 ， 建 立 一 个 反 向 查找 























它们 的 格式 也 很 不 错 : 


>>> print (text[:500]) 
[the tragedie of julius caesar by william shakespeare 1599] 


actus primus. scoena prima. 
enter flauius, murellus, and certaine commoners ouer the stage. 


flauius. hence: home you idle creatures, get you home: 
is this a holiday? what, know you not 
(being mechanicall) you ought not walke 
vpon a labouring day, without the signe 
of your profession? speake, what trade art thou? 
car. why sir, a carpenter 
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mur. where is thy leather apron, and thy rule? 
what dost thou with thy best apparrell on 


接 下 来 ， 我 们 将 把 原始 文本 分 成 数据 样本 ， 每 个 样本 都 有 固定 的 maxlen 个 字符 。 为 了 增 
Keras 示例 过 采样 了 数据 并 细 分 为 半 宛 余 块 。 从 


开头 处 取 40 个 字符 ， 从 开头 移 到 第 3 个 字符 ， 从 那里 取 40 个 字符 ， 移 到 第 6 个 字符 …… 以 此 
类 推 。 


请 记 住 ， 这 个 模型 的 目标 是 在 给 定 前 40 个 字符 的 情况 下 ， 学 习 预 测 任意 序列 中 的 第 41 个 
字符 。 因 此 , 我 们 将 构建 一 组 半 宛 余 序 丈 a, 每 个 序列 有 40 个 字符 长 , 如 代码 清单 9-25 
所 示 。 


代码 清单 9-25 ”组 装 一 个 训练 集 


现在 先 忽 略 句子 (和 行 ) 边界 , 这样 基 于 
字符 的 模型 就 会 学 习 什么 时 候 使 用 句点 














>>> maxlen = 40 ('') 或 换行 符 ("\n' ) 来 结束 一 个 句子 步 长 为 3 个 字符 ， 这 样 生成 的 
>>> step = 3 训练 样本 会 部 分 重 玻 ,但 不 会 
>>> sentences = [] 完全 相同 





>>> next_chars = [] 





>>> for i in range(0, len(text) - maxlen, step): 
a sentences.append(text[i: i + maxlen]) 

3 next_chars. append eee + maxlen]) oe aa 
>>> print('nb sequences:', len(sentences) ) 收集 下 一 人 一 个 切片 
nb sequences: 125168 预期 字符 


所 以 我 们 拥有 125 168 个 训练 样本 和 在 它们 之 后 的 字符 ， 即 模型 的 目标 标签 ， 如 代码 清单 9-26 
所 示 。 





代码 清单 9-26 ”训练 样本 的 独 热 编码 


np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool) 

np.zeros((len(sentences), len(chars)), dtype=np.bool) 

>>> for i, sentence in enumerate (sentences): 

for t, char in enumerate(sentence): 
X[i, t, char_indices[char]] = 1 

yli, char_indices[next_chars[i]]] = 


然后 ， 在 数据 集中 对 每 个 样本 的 每 个 字符 进行 独 热 编码 ， 并 将 其 存储 在 列表 X 中 。 我 们 还 
会 将 独 热 编 码 的 “ 管 案 ” 存 储 在 列表 y 中 ， 然 后 构造 模型 ， 如 代码 清单 9-27 所 示 。 


1 


代码 清单 9-27 组装 一 个 基于 字符 的 LSTM 模型 来 生成 文本 





>>> from keras.models import Sequential 
>>> from keras.layers import Dense, Activation 














>>> from keras.layers import LSTM 我 们 使 用 更 宽 
>>> from keras.optimizers import RMSprop 升 至 128 层 。 并 且 我 们 不 返回 整个 序列 。 
>>> model = Sequential () 我 们 只 需要 最 后 一 个 输出 字符 


>>> model.add(LSTM(128, 
input_shape=(maxlen, len(chars)))) 
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>>> model.add (Dense (len (chars))) < 

>>> model.add (Activation ('softmax')) 

>>> optimizer = RMSprop (lr=0.01) 

>>> model.compile(loss='categorical_crossentropy', optimizer=optimizer) 

>>> model.summary () 

Layer (type) Output Shape Param # 

lstm 1 (LSTM) (None, 128) 91648 

dense 1 (Dense) (None, 50) 6450 

activation 1 (Activation) (None, 50) 0 

Total params: 98,098.0 这 是 一 个 分 类 问题 , 所 以 我 们 想 要 
Trainable params: 98,098.0 在 所 有 可 能 字符 上 的 概率 分 布 





Non-trainable params: 0.0 


这 和 之 前 看 起 来 有 些许 不 同 , 我 们 来 看 一 下 各 个 组 成 模块 。 我 们 熟知 的 Sequential 层 和 LSTM 
层 ， 与 前 面 的 分 类 器 相同 。 在 本 例 中 ，LSTM 元 胞 隐藏 层 中 的 num_neuron 为 128。 虽 然 128 HE 
分 类 器 中 使 用 的 要 多 很 多 , 但 是 我 们 是 在 试图 为 在 复 现 给 定 文 本 的 音调 中 更 复杂 的 行为 进行 建 
模 。 然 后 ， 优 化 器 是 通过 一 个 变量 定义 的 , 但 这 也 是 到 目前 为 止 我 们 一 直 使 用 的 。 因 为 学 习 率 参 
数 从 其 默认 值 (0.001) 调整 为 现在 的 值 ， 所 以 为 了 便于 阅读 ， 这 里 将 其 分 开 。 值 得 注意 的 是 ， 
RMSProp 的 工作 原理 是 通过 使 用 “该 权重 最 近 梯 度 大 小 的 平均 值 ”, 来 调整 学 习 率 以 更 新 各 个 权 
Eo 阅读 关于 优化 器 的 书籍 可 以 为 我 们 在 实验 中 省 去 一 些 麻 烦 , 具体 各 个 优化 器 的 详细 信息 超出 
了 本 书 的 范围 ， 这 里 不 再 袭 述 。 

下 一 个 不 同 之 处 是 我 们 试图 最 小 化 的 损失 函数 。 到 目前 为 止 ， 它 一 直 是 binary_crossentropy。 
我 们 只 需要 确定 单个 神经 元 的 阔 值 。 但 是 在 这 里 ， 我 们 已 经 将 最 后 一 层 中 的 Dense (1) 替换 为 
Dense (len (chars) ) 因此, 网络 在 每 个 时 刻 的 输出 将 是 一 个 50 维 的 向 量 (len (chars) == 
50 ， 如 代码 清单 9-20 所 示 )。 我 们 将 使 用 softmax 作为 激活 函数 ， 因 此 输出 向 量 将 等 效 为 整个 
50 维 向 量 上 的 概率 分 布 ( 该 向 量 中 的 值 之 和 总 是 为 1) 使 用 categorical crossentropy 
试图 使 结果 的 概率 分 布 与 独 热 编码 预期 字符 之 间 的 差异 最 小 化 。 

最 后 一 个 主要 的 变化 是 没有 dropout。 因 为 我 们 要 对 这 个 数据 集 进行 特定 的 建 模 ， 而 没有 兴 
趣 将 其 推广 到 其 他 问题 ， 所 以 过 拟 合 不 仅 是 可 以 的 ， 还 是 理想 的 。 具 体 做 法 参见 代码 清单 9-28。 
















































































代码 清单 9-28 ”训练 一 个 莎士比亚 风格 的 聊天 机 器 人 





这 是 一 种 训练 模型 、 保 存 模 























>>> epochs = 6 型 状态 、 继 续 训 练 的 一 种 方 
>>> batch size = 128 法 。Keras 内 置 了 回调 函数 ， 
>>> model_structure = model.to_json() 在 调用 时 可 以 执行 类 似 的 
>>> with open("shakes_lstm_model.json", "w") as json_file: 任务 

>>> json_file.write (model_structure) 

>>> for i in range(5): < 





model.fit (X, y, 
batch_size=batch_size, 
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epochs=epochs) 





bis model.save weights ("shake lstm weights_{}.h5".format (i+1)) 
Epoch 1/6 

125168/125168 [==============================] - 266s - loss: 2.0310 
Epoch 2/6 

125168/125168 [==============================] - 257s - loss: 1.6851 


这 里 设置 每 隔 6 个 训练 周期 保存 模型 一 次 ,并 继续 训练 。 如 果 它 的 损失 不 再 减少 ， 就 不 需要 
继续 训练 , 那么 我 们 可 以 安全 地 停止 这 个 过 程 ， 并 在 之 前 的 几 个 训练 周期 里 保存 好 权重 集 。 我 们 
发 现 需要 20 ~ 30 个 训练 周期 才能 从 这 个 数据 集中 获得 还 不 错 的 结果 。 我 们 可 以 查看 扩展 数据 集 。 
莎士比亚 的 作品 是 可 以 公开 获取 的 。 如 果 大 家 是 从 不 同 的 来 源 获 得 , 则 需要 通过 适当 的 预 处 理 来 
确保 作品 的 一 致 性 。 幸 运 的 是 , 基于 字符 的 模型 不 必 担 心 分 词 器 和 分 句 带 的 不 一 致 , 但 是 保持 字 
符 一 致 性 的 方法 选择 会 很 重要 。 我 们 的 方法 或 许 有 些 粗糙 , 假如 能 使 用 更 加 精巧 的 方法 , 或 许 我 
们 能 发 现 更 好 的 结果 。 

我 们 自己 来 制作 剧本 吧 ! 因为 输出 向 量 是 描述 50 个 可 能 的 输出 字符 上 的 概率 分 布 的 50 维 向 量 ， 
所 以 我 们 可 以 从 该 分 布 中 采样 。Keras 示例 有 一 个 辅助 函数 来 完成 这 一 任务 ， 如 代码 清单 9-29 所 示 。 




































































代码 清单 9-29 产生 字符 序列 的 采样 器 





>>> import random 

>>> def sample(preds, temperature=1.0): 
preds = np.asarray(preds) .astype('float64"') 
preds = np.log(preds) / temperature 
exp_preds = np.exp (preds) 
preds = exp_preds / np.sum(exp_preds) 
probas = np.random.multinomial(l, preds, 1) 
return np.argmax (probas) 


由 于 网 络 的 最 后 一 层 是 softmax， 因 此 输出 向 量 将 是 网 络 所 有 可 能 输出 的 概率 分 布 。 通 过 
查看 输出 向 量 中 的 最 大 值 , 我 们 可 以 看 到 网 络 认 为 出 现 概率 最 高 的 下 一 个 字符 。 用 更 清楚 的 话 来 
说 ,输出 向 量 最 大 值 的 索引 ( 该 值 介 于 0 和 1 之 间 ) 将 与 预期 词 条 的 独 热 编码 的 索引 相关 联 。 

但 是 在 这 里 , 我 们 并 不 是 要 精确 地 重新 创建 输入 文本 , 而 是 要 重新 创建 接 下 来 可 能 出 现 的 文 
本 。 就 像 在 马尔 可 夫 链 中 一 样 ， 下 一 个 词 条 是 根据 下 一 个 词 条 的 概率 随机 选择 的 ， 而 不 是 最 常 出 
现 的 下 一 个 词 条 。 

log 函数 除 以 tempezrature 的 效果 是 使 概率 分 布 变 平 (temperature > 1) 或 变 尖 
(temperature < 1 )。 因 此 , 小 于 1 的 temperature (或 称 调用 参数 中 的 多 样 性 ) 倾向 于 试 
图 更 严格 地 重新 创建 原始 文本 。 而 大 于 1 的 temperature 会 产生 更 多 样 化 的 结果 , 但 是 随 着 分 
布 变 平 ， 学 习 到 的 模式 开始 被 遗忘 ， 我 们 就 会 回 到 明言 乱 语 的 状态 。 多 样 性 越 高 就 会 越 有 趣 。 

numpy 随机 函数 multinomial (num samples, probability list, size) Mp 
中 生成 num samples 个 样本 ， 其 可 能 的 结果 由 probabilities list 描述 , 它 将 输出 一 个 
长 度 为 size 的 列表 ， 该 列表 等 于 实验 运行 的 次 数 。 在 这 种 情况 下 ,我 们 只 从 概率 分 布 中 抽取 一 
次 ， 我 们 只 需要 一 个 样本 。 
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当 我 们 进行 预测 时 ，Keras 示例 有 一 个 遍历 各 种 不 同 的 temperature 值 的 循环 ， 因 此 每 个 预测 都 
将 看 到 一 系列 不 同 的 输出 ， 而 这 些 输出 基于 sample 函数 从 概率 分 布 进行 采样 所 使 用 的 temperature 


值 。 具 体 做 法 参见 代码 清单 9-30。 


代码 清单 9-30 ”使 用 3 种 多 样 化 等 级 产生 3 种 类 型 文本 


>>> import sys 
>>> start_index = random.randint(0, len(text) - maxlen - 1) 
>>> for diversity in [0.2, 0.5, 1.0]: 
print () 
print!) =55S diversity:', diversity) 
generated = '' 
sentence = text[start_index: start _index + maxlen] 
generated += sentence 





Prag Sess Generating with seed: "' + sentence + '"') 
sys. ROGUE oH TRC (generated) 我 们 为 训练 的 网 络 创 建 
for i in range(400): 一 个 输入 (seed), BE 
x = np.zeros((1, maxlen, len(chars) )) Fae 9 
人 Dp OF 
for t, char in enumerate(sentence): 已 会 答 出 什么 字符 
x[0, t, char_indices[char]] = 1. 
preds = model.predict(x, verbose=0) [0] ae ae 
next_index = sample(preds, diversity) HTH 
next_char = indices _char[next_index] 


generated += next_char 








e 





(seed ) 








sys.stdout. flush () 
print () 刷新 内 部 缓冲 区 的 结果 到 控 
制 台 ， 以 便 立 即 看 到 输出 的 


字符 





变 。 这 是 下 一 


查找 该 索引 表示 的 字符 


t = lu Tel + t_ch 
a e a 将 它 加 入 输入 序列 中 ， 并 出 
= 除 第 一 个 字符 以 保持 长 度 不 


次 预测 的 输入 


(为 简 少 起见， 上 述 示例 中 删除 了 diversity 等 于 1.2 的 情况 ， 大 家 也 可 以 添加 回去 ， 并 对 输出 


进行 处 理 。) 


从 源 文 本 中 提取 40 (maxlen ) 个 字符 的 随机 块 ， 并 预测 接 下 来 会 出 现 什么 字符 。 然 后 将 预 
测 的 字符 追加 到 输入 句子 中 ， 删 除 第 一 个 字符 ， 并 将 这 40 个 字符 作为 新 的 输入 再 次 预测 。 





HS AE AE tl es CBee tee Sane) Jandy ES 函数 ， 以 便 字 











符 即 刻 进入 控 


每 次 


HA 。 





如 果 预 测 的 字符 恰好 是 一 个 换行 符 , 那么 这 一 行 的 文本 就 结束 了 , 但 是 生成 器 将 继续 工作 ,从 它 


刚刚 输出 的 前 40 个 字符 预测 下 一 行 。 
我 们 会 得 到 像 下 面 这 样 的 结 


goteg diversity: 0.2 
二 二 Generating with seed: " them through & through 
the most fond an" 
them through & through 
the most fond and stranger the straite to the straite 
him a father the world, and the straite: 
the straite is the straite to the common'd, 
and the truth, and the truth, and the capitoll, 
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and stay the compurse of the true then the dead and the colours, 
and the comparyed the straite the straite 

the mildiaus, and the straite of the bones, 

and what is the common the bell to the straite 

the straite in the commised and 


二 二 二 diversity: 0.5 
三 Generating with seed: " them through & through 
the most fond an" 
them through & through 
the most fond and the pindage it at them for 
that i shall pround-be be the house, not that we be not the selfe, 
and thri's the bate and the perpaine, to depart of the father now 
but ore night in a laid of the haid, and there is it 


bru. what shall greefe vndernight of it 


cassi. what shall the straite, and perfire the peace, 
and defear'd and soule me to me a ration, 
and we will steele the words them with th 


= diversity: 1.0 

一 一 一 一 一 Generating with seed: " them through & through 
the most fond an" 

them through & through 

the most fond and boy'd report alone 


yp. it best we will st of me at that come sleepe. 
but you yet it enemy wrong, 'twas sir 


ham. the pirey too me, it let you? 

son. oh a do a sorrall you. that makino 
beendumons vp?x, let vs cassa, 
yet his miltrow addome knowlmy in his windher, 
a vertues. hoie sleepe, or strong a strong at it 
mades manish swill about a time shall trages, 
and follow. more. heere shall abo 


diversity 为 0.2 和 0.5 的 情况 下 生成 的 文本 乍 一 看 都 有 点 儿 像 莎士比亚 的 作品 。 而 diversity 





























为 1.0( 对 于 给 定数 据 集 ) 时 生成 的 文本 很 快 就 开始 偏离 正轨 ,但 是 请 注意 一 些 基本 结构 仍然 会 
出 现 ， 如 换行 符 后 面 跟 着 字符 的 缩写 名 称 。 总 而 言 之 ， 对 一 个 相对 简单 的 模型 来 说 结果 还 不 坏 ， 
而 且 在 基于 某 种 风格 生成 的 文本 中 ,我们 也 获得 了 一 些 乐趣 。 


文本 生成 器 的 增强 方法 










































































如 果 我 们 希望 生成 模型 不 只 是 为 了 消 遗 ， 可 以 做 些 什么 来 使 它 变 得 
图 ”增加 语料库 的 数量 并 提高 质量 ， 

a ”增加 模型 的 复杂 度 ( 神经 元 的 数量 ); 

加 ”实现 一 个 更 精细 的 字符 一 致 性 的 算法 ; 

加 ”句子 分 段 ; 


致 性 和 更 有 用 呢 ? 


y 
各 
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根据 需要 在 语法 、 拼 写 和 语气 上 添加 过 滤器 ; 

生成 比 实际 展示 给 用 户 更 多 的 一 些 结果 案例 ; 

使 用 在 会 话 上 下 文中 选择 的 种 子 文本 引导 聊天 机 器 人 转向 有 用 的 主题 ; 

在 每 一 轮 对 话 中 使 用 多 个 不 同 的 种 子 文本 来 探索 聊天 机 器 人 擅长 谈论 什么 领域 的 话题 以 及 用 户 
认为 哪些 内 容 会 有 帮助 。 

要 获得 更 多 信息 请 参见 图 1-4。 也 许 现在 比 第 一 次 看 的 时 候 更 有 意义 。 



















































































9.1.8 ”文本 生成 的 问题 : 内 容 不 受 控 


因此 , 我 们 仅仅 基于 示例 文本 来 生成 新 文本 , 并 且 我 们 还 可 以 学 习 如 何 从 示例 文本 中 提取 出 
其 写作 风格 。 但 是 , 我 们 却 无 法 控制 生成 的 文本 内 容 ,这 有 点 儿 反 直觉 。 上 下 文 内 容 受 限于 原始 
数据 ， 如 果 没 有 其 他 内 容 ， 那么 将 会 限制 模型 的 词汇 量 。 但 是 ， 如 果 给 定 一 个 输入 ,我 们 就 可 以 
按照 我 们 认为 原作 者 或 作者 可 能 会 说 的 话 进行 训练 。 大 家 从 这 种 模型 中 能 够 真正 期 待 的 最 好 结 
是 他 们 的 说 话 方式 ， 特 别 是 他 们 怎样 从 一 个 种 子 句 ( seed sentence ) 开始 把 话说 完 。 这 个 种 子 句 
不 一 定 要 来 自 训练 文本 本 身 。 因 为 这 个 模型 是 针对 字符 进行 训练 的 , 所 以 我 们 可 以 使 用 全 新 的 词 
作为 种 子 〈seed )， 并 获得 有 趣 的 结果 。 现 在 ， 我 们 有 了 一 个 有 趣 的 聊天 机 器 人 的 素材 ， 但 是 要 
让 机 器 人 以 某 种 风格 说 出 一 些 具 有 实质 意义 的 东西 ， 我 们 必须 等 到 下 一 章 。 









































9.1.9 其 他 记忆 机 制 


LSTM 是 循环 神经 网 络 基 本 概念 的 一 种 扩展 , 同样 也 存在 其 他 各 种 形式 的 扩展 。 所 有 这 些 扩 
展 无 外 平 都 是 对 元 胞 内 门 的 数量 或 运算 的 一 些微 调 。 例如 , 门 控 循 环 单元 将 遗忘 门 和 候选 门 中 的 
候选 选择 分 支 组 合成 一 个 更 新 门 。 这 个 门 减少 了 需要 学 习 的 参数 数量 , 并 且 已 经 被 证 实 可 以 与 标 
准 LSTM 相 媲 美 ， 同 时 计算 开销 也 要 小 得 多 。Keras 提供 了 一 个 GRU JE, 我 们 可 以 像 使 用 LSTM 
一 样 使 用 它 ， 如 代码 清单 9-31 所 示 。 





























代码 清单 9-31 Keras 中 的 门 控 循环 单元 





>>> from keras.models import Sequential 

>>> from keras.layers import GRU 

>>> model = Sequential () 

>>> model.add(GRU(num_neurons, return_sequences=True, 
input_shape=X[0].shape) ) 


另 一 种 技术 是 使 用 具有 窥视 孔 (peephole ) 连接 的 LSTM. Keras 没有 直接 实现 的 代码 ， 但 是 
网 上 的 几 个 示例 通过 扩展 Keras 的 LSTM 类 来 实现 这 一 点 。 其 思想 是 ， 标 准 LSTM 元 胞 中 的 每 个 
门 都 可 以 直接 访问 当前 记忆 状态 ， 并 将 其 作为 输入 的 一 部 分 。 如 论文 “Leaming Precise Timing with 
LSTM Recurrent Network” 所 述 ， 所 有 的 门 包 含 与 记忆 状态 相同 维度 的 额外 权重 。 然 后 ， 每 个 门 
的 输入 是 该 时 刻 元 胞 的 输入 、 前 一 个 时 刻 元 胞 的 输出 和 记忆 状态 本 身 的 拼接 。 上 述 论文 的 作者 发 
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现 ， 在 时 间 序 列 数据 中 ， 这 使 得 为 时 间 序 列 事件 建 模 更 加 精确 。 虽 然 他 们 并 没有 专门 在 NLP 领 
域 工 作 , 但 是 这 个 概念 在 这 里 也 是 有 效 的 ,我们 把 它 留 给 读者 去 试验 。 

这 只 是 RNN/LSTM 的 两 个 入 生 模 型 。 这 方面 的 研究 一 直 在 持续 中 ， 我 们 希望 大 家 也 能 享受 
这 其 中 的 乐趣 。 这 些 工具 都 是 现成 的 ， 所 以 人 人 都 有 可 能 找到 下 一 代 最 新 的 、 最 好 的 模型 。 














9.1.10 ”更 深 的 网 络 


将 记忆 单元 看 作 是 对 名 词 /动词 对 或 句子 与 句子 之 间 动 词 时 态 引用 的 特定 表示 进行 编码 非常 
方便 , 但 这 并 不 是 实际 发 生 的 事情 。 假设 训练 顺利 的 话 ， 这 不 过 刚好 是 网 络 学 习 的 语言 模式 的 一 
个 副产品 。 与 所 有 神经 网 络 一 样 ,分 层 允许 模型 在 训练 数据 中 形成 更 复杂 的 模式 表示 。 我 们 也 可 
以 轻松 地 堆 受 LSTM 层 (如 图 9-13 所 示 )。 











HEBAILSTM 
1=0 t=1 1=2 








每 个 LSTM 层 都 是 一 个 具有 自己 的 门 和 状态 向 量 的 元 胞 
图 9-13 ”堆肥 的 LSTM 

训练 堆 和 琶 层 在 计算 上 代价 非常 高 昂 ,， 但 在 Keras PIPE MH SRK ARLE. AEB IL 
代码 清单 9-32。 








代码 清单 9-32 两 层 LSTM 


>>> from keras.models import Sequential 

>>> from keras.layers import LSTM 

>>> model = Sequential () 

>>> model.add(LSTM(num_neurons, return_sequences=True, 
a input_shape=X[0].shape) ) 

>>> model.add (LSTM (num neurons 2, return_sequences=True) ) 
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注意 ， 假 如 要 正确 构建 模型 ， 需 要 在 第 一 层 和 中 间 层 使 用 参数 return_sequences=True。 
这 个 要 求 是 有 意义 的 ， 因 为 每 个 时 刻 的 输出 都 需要 作为 下 一 层 时 刻 的 输入 。 
但 是 , 请 记 住 , 创建 一 个 能 够 表示 比 训练 数据 中 存在 的 更 复杂 的 关系 的 模型 可 能 会 导致 奇怪 
的 结果 。 简 单 地 在 模型 上 县 加 层 ， 虽 然 很 有 趣 ， 但 很 少 是 构建 最 有 用 的 模型 的 解决 方案 。 































































































92 小 结 
m 使 用 记忆 单元 记忆 信息 使 序列 的 模型 更 加 精确 和 通用 。 
B ”忘记 无 关 信 息 很 重要 。 
B 对 于 即将 到 来 的 输入 ， 只 需 保留 部 分 新 信息 ， 而 LSTM 可 以 通过 训练 找到 它 。 
m ”如果 能 预测 接 下 来 会 是 什么 词 ， 就 能 从 概率 分 布 中 生成 全 新 的 文本 。 
加 ”基于 字符 的 模型 比 基 于 词 的 模型 可 以 更 有 效 、 更 成 功 地 从 小 型 的 、 风 格 集中 的 语料库 中 


学 习 。 


E LSTM 思想 向 量 可 以 捕捉 的 远 远 不 止 是 句子 中 词 之 和 。 
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本 章 主要 内 容 

图 用 神经 网 络 将 一 个 文本 序列 映射 到 另 一 个 序列 

图 理解 序列 到 序列 的 任务 ， 以 及 它们 与 我 们 学 习 的 其 他 任务 有 何不 同 
图 使 用 编码 -解码 模型 架构 进行 翻译 和 聊天 

图 训练 模型 注意 序列 中 什么 是 重要 的 





现在 , 我 们 知道 了 如 何 建立 自然 语言 模型 ,并 将 其 应 用 于 从 情感 分 类 到 新 文本 生成 的 各 个 方 
面 ( 见 第 9 章 ) 
神经 网 络 能 将 英语 翻译 成 德语 吗 ? 甚至 更 进一步 ， 是 否 有 可 能 通过 将 基因 型 转化 为 表现 型 
( 如 将 基因 转化 为 体型 ) 来 预测 疾病 ? 还 有 从 本 书 的 开头 我 们 就 一 直 在 谈论 的 聊天 机 器 人 呢 ? 神 
经 网 络 能 进行 有 趣 的 对 话 吗 ? 以 上 这 些 都 是 序列 到 序列 ( sequence-to-sequence ) 的 问题 。 它 们 将 
一 个 长 度 不 确定 的 序列 映射 到 另 一 个 长 度 也 未 知 的 序列 。 

在 本 章 中 , 我 们 将 学 习 如 何 使 用 编码 -解码 架构 ( encoder-decoder architecture ) 构建 序列 到 序 
列 的 模型 。 





















































10.1 编码 -解码 架构 


大 家 认为 我 们 之 前 的 哪些 架构 对 序列 到 序列 的 问题 可 能 有 用 呢 ? 是 第 6 章 的 词 向 量 衣 和 模型 ， 
是 第 7 章 的 卷 积 网 络 , 还 是 第 8 章 和 第 9 章 的 循环 网 络 ? 你 猜 对 了 。 我 们 将 在 上 一 章 的 LSTM 绪 
构 的 基础 上 进行 构建 。 

LSTM 非常 擅长 处 理 序列 , 但 是 我 们 需要 一 对 而 不 是 一 个 LSTM。 我 们 将 构建 一 个 模块 化 的 
架构 ， 称 为 编码 -解码 架构 。 
码 -解码 架构 的 前 半 部 分 是 序列 编码 器 ， 该 网 络 将 序列 ( 如 自然 语言 文本 ) 转换 为 较 
低 维 的 表示 形式 ( 如 第 9 章 末 尾 的 思想 向 量 ) 这 样 我 们 就 已 经 构建 了 序列 到 序列 模型 的 前 半 
部 分 。 
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& 


码 -解码 架构 的 后 半 部 分 是 序列 解码 器 。 序 列 解码 器 设计 成 将 向 量 重新 转换 回 人 类 可 读 的 
文本 。 但 我 们 不 是 已 经 这 样 做 了 吗 ? 我 们 在 第 9 章 末 尾 已 经 生成 了 一 些 神奇 的 莎士比亚 风格 的 剧 
本 。 这 已 经 很 接近 了 , 但 是 我 们 还 需要 添加 一 部 分 内 容 来 让 这 个 莎士比亚 风格 的 剧 作 家 机 器 人 专 
注 于 作为 翻译 家 的 新 任务 。 

例如 , 我 们 可 能 希望 模型 输入 英语 文本 并 翻译 输出 德语 文本 。 实 际 上 ， 这 不 就 像 让 我 们 的 莎 
士 比 亚 机 器 人 把 现代 英语 翻译 成 莎士比亚 风格 的 作品 吗 ? 是 的 , 但 在 莎士比亚 的 例子 中 , 我 们 可 
DSRS, 让 机 器 学 习 算法 选择 与 它 学 到 的 概率 分 布匹 配 的 词 。 但 是 对 于 翻译 任务 ， 即 使 对 于 一 
个 还 算 不 错 的 剧 作 家 机 右 人 ， 这 些 也 还 不 够 。 

我 们 已 经 知道 如 何 建立 编码 器 和 解码 器 ,现在 我 们 需要 学 习 如 何 让 它们 变 得 更 好 ， 目 标 更 明确 。 
事实 上 , 第 9 章 中 的 LSTM 作为 可 变 长 度 文本 的 编码 器 非常 有 效 。 我 们 构建 它们 是 为 了 捕捉 自然 语 
言 文本 的 语意 和 情感 。LSTM 通过 内 部 表示 ( 一 个 思想 向 量 ) 捕获 了 这 个 含义 。 我 们 只 需要 从 LSTM 
模型 中 的 状态 〈 记 忆 元 胞 ) 里 提取 该 思想 向 量 。 我 们 了 解 了 在 Keras 的 LSTM 模型 中 设置 
return state=True, 以 便 输 出 包含 隐藏 层 状 态 。 这 个 状态 向 量 成 为 编码 器 的 输出 和 解码 器 的 ‘ll 


fem 当 我 们 训练 任何 一 个 神经 网 络 模型 时 ,每 一 个 内 部 网 络 层 都 包含 了 所 有 我 们 需要 通过 训练 解 
决 的 问题 的 信息 。 该 信息 通常 由 一 个 固定 维度 的 张 量 表示 ,该 张 量 包 含 该 层 的 权重 或 激活 函数 。 如 
果 我 们 的 网 络 能 够 很 好 地 概括 所 有 信息 ,就 可 以 确定 会 存在 着 一 个 信息 瓶颈 一 一 一 个 维度 数量 最 少 
的 层 。 在 Word2vec ( 见 第 6 =) 中 ,使 用 内 部 网 络 层 的 权重 来 计算 向 量 表示 。 我 们 还 可 以 直接 使 
用 内 部 网 络 层 的 激活 函数 。 这 就 是 本 章 的 示例 所 做 的 。 检 查 我 们 过 去 构建 成 功 的 网 络 ， 看 看 是 否 可 
以 找到 这 个 信息 瓶颈 ， 它 可 以 用 作 我 们 数据 的 编码 表示 。 


所 以 剩 下 的 工作 就 是 改进 解码 名 的 设计 。 我 们 需要 把 思想 向 量 解码 回 自然 语言 序列 。 












































































































































10.1.1 解码 思想 


假设 我 们 想 要 研发 一 个 翻译 模型 将 文本 从 英语 翻译 成 德语 ,我 们 希望 将 字符 序列 或 词 序列 映 
射 到 另 一 个 字符 序列 或 词 序列 。 我 们 之 前 已 经 学 习 如 何 根据 时 刻 六 1 的 元 素 预测 时 刻 上 的 序列 元 
素 , 但 是 直接 使 用 LSTM 将 一 种 语言 映射 到 另 一 种 语言 很 快 就 会 遇 到 问题 。 对 于 单个 LSTM , 我 
们 需要 输入 序列 和 输出 序列 具有 相同 的 序列 长 度 ， 而 对 于 翻译 任务 这 种 情况 往往 很 少 。 

图 10-1 展示 了 这 个 问题 。 英 语 和 德语 句子 长 度 不 同 ， 这 使 得 英语 输入 和 预期 输出 之 间 的 映 
射 更 加 复杂 。 英 语 短 语 “is playing”( 现在 进行 时 ) 被 翻译 成 德语 的 现在 时 态 “spielt”。 但 是 ， 这 
里 的 “spielt” 只 能 根据 输入 “is” 进 行 预 测 ， 而 我 们 在 这 个 时 刻 还 没有 输入 “playing”。 下 一 步 ， 
“playing” 会 被 映射 为 “FuBball”"。 当 然 ， 网 络 可 以 学 习 这 些 映 射 ,但 学 到 的 表示 只 能 针对 特定 的 
输入 ， 这 样 获 得 一 个 更 通用 的 语言 模型 对 我 们 来 说 就 是 一 纸 空 文 了 。 

序列 到 序列 网 络 架 构 ， 有 时 缩写 为 seq2seq， 通 过 创建 一 个 思想 向 量 形式 的 输入 表示 来 解除 
这 个 限制 。 然 后， 序列 到 序列 模型 使 用 该 思想 向 量 (有 时 称 为 上 下 文 向 量 ) 作为 第 二 个 网 络 的 起 
点 ， 第 二 个 网 络 接收 不 同 的 输入 集 来 生成 输出 序列 。 

























































































10% 序列 到 序列 建 模 和 注意 力 机 制 
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预期 输出 是 样本 中 的 下 一 个 词 条 。 这 里 显示 的 是 词 级 别 
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隐藏 层 








图 10-1 语言 建 模 的 限制 














思想 向 量 还 记得 发 现 词 向 量 的 时 候 吗 ? 词 向 量 是 将 词 的 意义 压缩 成 一 个 固定 长 度 的 向 量 。 在 这 个 
词义 向 量 空间 中 ， 具 有 相似 意义 的 词 是 相互 接近 的 。 思 想 向 量 的 思想 与 其 非常 类 似 。 神 经 网 络 可 以 
将 任何 自然 语言 语句 中 的 信息 (不 只 是 单个 词 ) 压缩 成 一 个 固定 长 度 的 向 量 来 表示 输入 文本 的 内 容 。 
思想 向 量 就 是 这 个 向 量 。 它 们 被 用 作文 档 中 思想 的 数值 表示 ， 以 运行 一 些 解码 器 模型 ,通常 是 翻译 
解码 器 。 思 想 向 量 这 个 术语 是 Geoffrey Hinton 于 2015 年 在 伦敦 接受 英国 皇家 学 会 (Royal Society ) 
采访 时 创造 的 。 


序列 到 序列 网 络 由 两 个 模块 化 的 循环 网 络 组 成 ， 它 们 之 间 有 一 个 思想 向 量 ( 如 图 10-2 所 示 )。 
编码 器 在 其 输入 序列 的 末尾 输出 一 个 思想 向 量 。 解 码 器 接收 这 个 向 量 并 输出 一 个 词 条 序列 。 





























t=0 t=1 t=2 t=3 
输入 : 英语 Maria is playing soccer 
目标 : 德语 Maria Spielt ? FuBball ? ? 


图 10-2 ”思想 向 量 “ 夹 心 ” 的 编码 -解码 “三 明治 ” 








第 一 个 网 络 , 称 为 编码 器 , 将 输入 文本 ( 如 用 户 向 聊天 机 器 人 发 送 的 消息 ) 转换 为 思想 向 量 。 
思想 向 量 有 两 部 分 ， 每 一 部 分 都 是 一 个 向 量 : 编码 器 隐藏 层 的 输出 (经 过 了 激活 函数 ) 和 这 个 输 
人 样本 LSTM 元 胞 的 记忆 状态 。 
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提示 “如 代码 清单 10-1 所 示 ， 在 名 为 state h ( 隐藏 层 的 输出 ) M state c (记忆 状态 ) 的 变量 
中 我 们 捕获 了 思想 向 量 。 


然后 思想 向 量 成 为 第 二 个 网 络 即 解码 器 网 络 的 输入 。 我 们 将 在 稍 后 的 代码 实现 部 分 中 看 到 ， 
生成 的 状态 ( 思想 向 量 ) 将 作为 解码 器 网 络 的 初始 状态 (initial state )。 然 后 ， 第 二 个 网 络 使 用 初 
始 状态 和 一 种 特殊 的 输入 : 初始 词 条 (start token )。 有 了 这 些 信息 ， 第 二 个 网 络 就 能 学 习 生 成 目 
标 序列 的 第 一 个 元 素 ( 如 字符 或 词 )。 

在 这 种 特殊 的 结构 中 ,训练 阶段 和 推理 阶段 的 处 理 是 不 同 的 。 在 训练 期 间 ， 我 们 将 初始 文 
本 传递 给 编码 器 ， 并 将 预期 的 文本 作为 输入 传递 给 解码 器 。 我 们 让 解码 器 网 络 学 习 ， 在 给 定 
初始 状态 和 “开始 ”按键 的 情况 下 ， 它 就 可 以 生成 一 系列 词 条 。 解 码 器 的 第 一 个 输入 是 初始 
词 条 ， 第 二 个 输入 应 该 是 第 一 个 预期 的 或 要 被 预测 的 词 条 ， 它 会 反 过 来 促使 网 络 生成 第 二 个 
预期 的 词 条 。 

然而 ,在 推理 阶段 ,我 们 没有 预期 的 文本 ,那么 除 状 态 之 外 ,我们 使 用 什么 来 传递 给 解码 器 
WE? 我 们 使 用 通用 的 初始 词 条 , 然后 使 用 第 一 个 生成 的 元 素 , 该 元 素 将 在 下 一 时 刻 成 为 解码 器 的 
输入 ， 以 生成 下 一 个 元 素 ， 以 此 类 推 。 这 个 过 程 重复 进行 ， 直 到 达到 序列 元 素 的 最 大 数量 ， 或 者 
生成 一 个 终止 词 条 。 

通过 这 种 端 到 端 (end-to-end ) 训练 ， 解 码 咒 将 把 一 个 思想 向 量 转换 为 对 初始 输入 序列 〈 如 
用 户 问题 ) 的 全 解码 回复 。 将 解决 方案 分 割 成 两 个 网 络 ， 其 中 思想 向 量 作 为 结合 组 件 ( 绑 定 两 个 
网 络 )， 允 许 我 们 将 输入 序列 映射 到 不 同 长 度 的 输出 序列 ( 如 图 10-3 所 示 )。 



















































































输入 序列 编码 器 


思想 向 量 


110-3 ”展开 编码 -解码 架构 























10.1.2 似曾相识? 


大 家 以 前 可 能 见 过 编码 -解码 方法 。 自 编码 器 对 学 习 神 经 网 络 而 言 是 一 种 常见 的 编码 -解码 架 
构 。 它 们 是 一 种 重复 博弈 〈repeat-game-playing ) 的 神经 网 络 ， 经 过 训练 ， 能 够 将 输入 信息 反刍 
出 来 ， 这 使 得 寻找 训练 数据 变 得 很 容易 ， 几 乎 任何 一 组 高 维 张 量 、 向 量 或 序列 都 可 以 。 

与 任何 编码 -解码 架构 一 样 ， 自 编码 器 在 编码 器 和 解码 器 之 间 存 在 信息 瓶 贷 ， 我 们 将 其 用 作 
输入 数据 的 低 维 表示 。 任 何 具 有 信息 瓶颈 的 网 络 都 可 以 在 编码 -解码 架构 中 用 作 编 码 器 ， 即 使 该 
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网 络 只 接受 了 改写 或 重复 表述 输入 的 训练 。 

虽然 自 编 码 器 与 我 们 在 本 章 中 介绍 的 编码 器 -解码 器 (encoder-decoder ) 具有 相同 的 结构 , 但 
是 它们 是 为 不 同 的 任务 而 训练 的 。 自 编码 器 被 训练 来 寻找 输入 数据 的 向 量 表示 , 这 样 输入 就 可 以 
由 网 络 的 解码 需 以 最 小 的 误差 重 构 。 编 码 句 和 解码 需 互 为 伪 逆 过 程 (pseudo-inverses )。 该 网 络 的 
目的 是 找到 输入 数据 如 图 像 或 文本 ) 的 稠密 向 量 表示 ， 从 而 允许 解码 器 以 最 小 的 误差 重 构 它 。 
在 训练 阶段 ， 输 入 数据 和 预期 输出 是 相同 的 。 因 此 ， 如 果 目 标 是 找到 数据 的 稠密 向 量 表示 ， 而 不 
是 为 语言 翻译 生成 思想 向 量 或 为 给 定 的 问题 寻找 回复 一 一 那么 自 编 码 器 是 一 个 不 错 的 选择 。 

那么 第 6 章 中 的 PCA 和 +SNE 如 何 使 用 呢 ? 我 们 是 否 使 用 其 他 章节 中 用 于 可 视 化 向 量 的 sklearn. 
decomposition.PCA 或 sklearn.manifold.TSNE? t-SNE 模型 生成 一 个 种 人 作为 它 的 输 
出 ， 所 以 在 某 种 意义 上 ， 我们 可 以 把 它 看 作 一 个 编码 器 。PCA 也 是 一 样 。 然 而 ， 这 些 模型 是 无 
监督 的 ， 因此 它们 不 能 针对 特定 的 输出 或 任务 。 这 些 算法 主要 用 于 特征 提取 和 可 视 化 。 它 们 创建 
了 非常 紧密 的 瓶颈 以 输出 非常 低 维 的 向 量 〈 通 党 是 二 维 或 三 维 )。 它 们 不 是 设计 用 来 输出 任意 长 
度 的 序列 的 。 这 就 是 编码 器 的 全 部 。 我 们 已 经 了 解 到 ，LSTM 是 用 于 从 序列 中 提取 特性 和 能 入 的 
最 先进 技术 。 

注意 变 分 自 编码 器 是 自 编码 器 的 一 种 变 体 ， 用 于 训练 一 个 类 似 于 编码 -解码 架构 的 生成 器 。 变 分 
自 编码 器 产生 的 压缩 向 量 不 仅 是 输入 的 准确 表示 ,而且 是 满足 高 斯 分 布 的 。 这 样 ， 通 过 随机 选择 一 
个 种 子 向 量 并 将 其 输入 自 编码 器 后 半 部 分 的 解码 器 中 ， 就 可 以 更 容易 地 生成 一 个 新 的 输出 ”。 









































































































































































































































10.1.3 ”序列 到 序列 对 话 


大 家 可 能 还 不 清楚 对 话 引 擎 (dialog engine/conversation ) 问题 与 机 右 翻 译 之 间 的 关系 ,但 它 
们 非常 相似 。 在 聊天 机 器 人 的 对 话 中 生成 回复 与 在 机 器 翻译 系统 中 生成 英语 语句 的 德语 翻译 没有 
什么 不 同 。 

翻译 和 对 话 任务 都 需要 模型 将 一 个 序列 映射 到 男 一 个 序列 。 将 英语 词 条 序列 映射 到 德语 序列 
非常 类 似 于 将 对 话 中 的 自然 语言 语句 映射 到 对 话 引 擎 的 预期 回复 语句 。 我 们 可 以 把 机 器 翻译 引擎 想 
象 成 一 个 精神 分 裂 的 双语 对 话 引擎 ， 它 在 玩 一 个 幼稚 的 “回声 游戏 ”( echo game ) “， 用 英语 听 ， 
用 德语 回复 。 

但 是 ， 我 们 希望 我 们 的 机 器 人 有 合适 的 回复 ， 而 不 只 是 一 个 回音 室 。 因 此 ， 我 们 的 模型 
需要 引入 希望 聊天 机 器 人 谈论 的 领域 的 附加 信息 。 我 们 的 NLP 模型 需要 学 习 一 个 从 问题 到 回 
复 的 复杂 映射 ， 而 不 是 回声 或 翻译 ,这 需要 更 多 的 训练 数据 和 更 高 维度 的 思想 向 量 ， 因 为 它 
必须 包含 对 话 引擎 需要 了 解 的 领域 的 所 有 信息 。 在 第 9 章 中 ， 我们 学 习 了 在 LSTM 模型 中 增 
加 思想 向 量 的 维 数 ， 可 以 增加 其 信息 容量 。 如 果 想 把 翻译 机 器 变 成 对 话机 器 ， 还 需要 获得 足 




































































QD Chandar 和 Lauly 等 人 研究 的 一 种 学 习 双 语词 表示 的 自 编码 方法 。 
© 详 见 标题 为 “Variational Autoencoders Explained” 的 网 页 。 
@ 也 被 称 为 “repeat game” 
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够 多 的 合适 数据 。 

给 定 一 组 词 条 , 我 们 可 以 训练 我 们 的 机 器 学 习 流 水 线 来 模拟 一 个 对 话 回复 序列 。 我 们 需要 足 
够 多 的 对 话语 句 对 和 在 思想 向 量 中 足够 大 的 信息 空间 来 理解 所 有 这 些 映射 ,一 旦 我 们 有 了 一 个 数 
据 集 ， 其 中 包含 了 足够 多 的 从 问题 到 回复 的 “翻译 ”对 ,我 们 就 可 以 使 用 和 机 器 翻译 相同 的 网 络 
来 训练 对 话 引 擎 。 

Keras 使 用 一 种 称 为 编码 -解码 模型 的 模块 化 架构 , 为 构建 序列 到 序列 网 络 提供 模块 。 它 提供 
了 一 个 API 来 访问 LSTM 网 络 的 所 有 内 部 组 件 ， 我 们 需要 这 些 组 件 来 解决 翻译 、 会 话 甚至 基因 
型 -表现 型 ( genotype-to-phenotype ) 的 问题 。 





























10.1.4 ”回顾 LSTM 





在 上 一 章 中 ,我 们 学 习 了 LSTM 如 何 为 循环 网 络 提供 一 种 方法 来 选择 性 地 记 住 和 遗忘 它们 在 
样本 文档 中 “看 到 ”的 词 条 模式 。 每 个 时 刻 的 输入 词 条 都 经 过 遗忘 门 和 更 新 门 , 乘 以 权重 和 掩 码 
(mask ), 然后 存储 在 记忆 元 胞 中 。 各 个 时 刻 ( 词 条 ) 的 网 络 输出 不 单单 由 输入 词 条 决定 ,而 是 由 
输入 词 条 和 记忆 单元 当前 的 状态 一 起 决定 。 

重要 的 是 ,， LSTM 在 文档 之 间 共 享 词 条 模式 识别 器 ， 因 为 遗忘 门 和 更 新 门 具 有 在 读 取 多 个 文 
档 后 训练 的 权重 。 因 此 ，LSTM 不 必 为 每 个 新 文档 重新 学 习 英 语 拼 写 和 语法 。 我 们 学 习 了 如 何 激 
活 存储 在 LSTM 记忆 元 胞 的 权重 中 的 这 些 词 条 模式 ,从 而 根据 一 些 种 子 词 条 预测 之 后 的 词 条 以 触 
发 序列 的 生成 (如 网 10-4 所 示 )。 











Maria is playing soccer 
LSTM LSTM LSTM 





<START> Maria Spielt Fußball 





Maria Spielt Fußball <END> 





图 10-4 “预测 下 一 词 条 











通过 预测 一 个 个 的 词 条 , 我 们 可 以 根据 网 络 建议 的 可 能 的 后 续 词 条 的 概率 分 布 来 选择 下 一 个 
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词 条 ， 从 而 生成 一 些 文本 。 虽然 说 不 上 完美 , 但 还 是 很 有 趣 。 但 我 们 不 仅仅 是 为 了 娱乐 ， 我们 还 
要 把 控 一 个 生成 模型 的 结 

Sutskever, Vinyals 和 Le 提出 了 一 种 方法 ,引入 第 二 个 LSTM 模型 ， 以 一 种 随机 性 更 弱 、 更 
可 控 的 方式 解码 记忆 元 胞 中 的 模式 。 他 们 提出 使 用 LSTM 在 分 类 任务 中 创建 的 思想 向 量 ， 然 后 
使 用 生成 的 向 量 作 为 输入 传递 给 第 二 个 完全 不 同 的 LSTM， 这 个 LSTM 只 试图 逐个 预测 各 个 词 
条 , 这 种 方法 提供 了 一 种 将 输入 序列 映射 到 一 个 截然 不 同 的 输出 序列 的 方法 。 我 们 来 看 看 它 是 如 
何 工 作 的 。 








10.2 组 装 一 个 序列 到 序列 的 流水 线 


根据 前 几 章 的 知识 ， 我 们 已 经 掌握 了 组 装 一 个 序列 到 序列 的 机 器 学 习 流 水 线 所 需要 的 所 
有 组 件 。 








10.2.1 为 序列 到 序列 训练 准备 数据 集 


正如 之 前 在 卷 积 神经 网 络 或 循环 神经 网 络 实现 中 看 到 的 那样 , 我 们 需要 将 输入 数据 填充 为 固 
定 长 度 。 通常 ,我 们 需要 使 用 填充 词 条 扩展 输入 序列 , 使 其 与 最 长 的 输入 序列 匹配 。 在 序列 到 序 
列 网 络 的 情况 下 ,还 需要 准备 目标 数据 并 填充 它 以 匹配 最 长 的 目标 序列 。 记 住 , 输入 数据 和 目标 
数据 的 序列 长 度 不 需要 相等 ( 如 图 10-5 所 示 )。 


























输入 序列 (英语 ) 目标 序列 德语) 
Sloe e ERE 
Wheel] — Welle) 
































图 10-5“ 预 处 理 前 的 输入 序列 和 目标 序列 











除了 所 需 的 填充 , 还 应 该 用 初始 词 条 和 终止 词 条 对 目标 序列 进行 注释 ,以 告诉 解码 器 任务 何 
时 启动 以 及 何 时 完成 ( 如 图 10-6 所 示 )。 
























































































































































输入 序列 (英语) 目标 序列 (德语 ) 
Esok ALIS cle) 一 ~ Es A AA alesse] 
ar wa B ae eee: 
序列 元 素 填充 元 素 初始 词 条 序列 元 素 终止 词 条 ” 填充 元 素 
2110-6 。 预 处 理 后 的 输入 序列 和 目标 序列 
































© 参见 Sutskever, Vinyals 和 Le 的 论文 (参见 下 载 资源 中 的 5346-sequence-to-sequence-learning-with-neural- 
networks.pdf 文件 )。 
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我 们 将 在 本 章 后 面 构建 Keras 流水 线 时 学 习 如 何 注释 目标 序列 。 请 记 住 ,我 们 需要 两 个 版 本 
的 目标 序列 来 进行 训练 : 一 个 以 初始 词 条 开始 〈 我 们 将 使 用 该 词 条 作为 解码 器 输入 )， 另 一 个 不 
以 初始 词 条 开始 〈 损失 函数 将 对 目标 序列 的 精确 性 进行 评分 )。 

在 前 儿 章 中 ， 我们 的 训练 集成 对 组 成 : 输入 和 预期 输出 。 序 列 到 序列 模型 的 每 个 训练 样 
本 都 是 一 个 三 元 组 : 初始 输入 、 预 期 输出 ( 以 初始 词 条 为 前 置 项 ) 和 预期 输出 ( 没有 初始 
词 条 )。 

在 讨论 实现 细节 之 前 ,我 们 先 回 顾 一 下 。 序 列 到 序列 网 络 由 两 个 网 络 组 成 : i, TORRE 
思想 向 量 ; 解码 器 , 我 们 会 把 思想 向 量 作为 它 的 初始 状态 传递 给 它 。 将 初始 化 状态 和 初始 词 条 
作为 解码 咒 网 络 的 和 输入， 网 络 会 生成 输出 的 第 一 个 序列 元 素 〈 例如 字符 或 词 向 量 o 然后， 将 根 
据 更 新 后 的 状态 和 预期 序列 中 的 下 一 个 元 素 预测 下 面 的 每 个 元 素 。 这 个 过 程 将 持续 进行 , 直到 生 
成 一 个 终止 词 条 或 达到 元 素 的 最 大 数量 。 解 码 器 生成 的 所 有 序列 元 素 将 组 成 预测 的 输出 〈 例 如 我 
们 对 用 户 问题 的 回复 )。 记 住 这 些 ， 现 在 我 们 来 看 看 细节 。 





















































10.2.2 Keras 中 的 序列 到 序列 模型 


在 接 下 来 的 几 节 中 ， 我 们 将 指导 大 家 通过 Keras 实现 Francois Chollet 发 布 的 序列 到 序列 网 络 "。 
Chollet 先生 也 是 《Python 深度 学 习 》( Deep Learning with Python ) 一 书 的 作者 ， 该 书 是 学 习 神 经 
网 络 架 构 和 Keras 的 宝贵 资料 。 

在 训练 阶段 ， 将 端 到 端 地 同时 训练 编码 器 和 解码 器 网 络 ， 对 于 每 个 样本 需要 3 个 数据 点 : 一 
个 训练 编码 器 输入 序列 、 一 个 解码 需 输 入 序列 和 一 个 解码 器 输出 序列 。 训 练 编码 需 输 入 序列 可 以 
是 一 个 用 户 的 问题 , 我 们 硕 望 机 器 人 对 此 问题 做 出 回复 。 而 解码 器 输入 序列 是 未 来 机 器 人 的 预期 
回复 。 

大 家 可 能 想 知道 为 什么 需要 解码 器 的 输入 序列 和 输出 序列 。 原 因 是 这 里 使 用 了 一 种 名 为 “ 教 
师 强迫 ”(teacher forcing ) 的 方法 来 训练 解码 器 ， 在 这 种 方法 中 ， 将 使 用 编码 器 网 络 提供 的 初始 
状态 , 并 通过 向 解码 器 提供 输入 并 让 它 预 测 相同 的 序列 来 训练 解码 器 生成 预期 序列 。 因 此 ,解码 
器 的 输入 序列 和 输出 序列 将 是 相同 的 ， 除 了 序列 间 有 一 个 时 刻 的 偏 移 量 。 

在 使 用 阶段 , 将 使 用 编码 器 生成 用 户 输入 的 思想 向 量 , 然后 解码 器 将 基于 该 思想 向 量 生成 一 
个 回复 。 解 码 器 的 输出 将 作为 对 用 户 的 回复 。 


Keras HA API 在 下 面 的 示例 中 , 大 家 将 注意 到 与 前 几 章 看 到 的 Keras 层 不 同 的 实现 风格 。Keras 
引入 了 另 一 种 组 装 模 型 的 方法 ， 该 方法 是 调用 每 一 层 并 从 前 一 晨 将 值 传递 给 该 层 。 当 大 家 想 要 构建 
模型 并 复 用 训练 过 的 模型 的 某 些 部 分 时 (正如 接 下 来 的 章节 中 演示 的 那样 )， 函 数 式 API 会 非常 有 
用 。 有 关 Keras 函数 式 API 的 更 多 信息 ， 我 们 强烈 推荐 Keras 核心 开发 团队 的 博客 文章 。 





















































































































































详 见 标题 为 “A ten-minute introduction to sequence-to-sequence learning in Keras” 的 网 页 。 
见 标题 为 “Getting started with the Keras functional API” 的 网 页 。 
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10.2.3 序列 编码 器 

编码 器 的 唯一 目的 是 创建 思想 向 量 ， 然 后 将 其 作为 解码 器 网 络 的 初始 状态 ( 如 图 10-7 所 示 )。 
由 于 没有 “目标 ”思想 向 量 供 网 络 学 习 预 测 ， 因 此 无 法 单独 训练 一 个 编码 器 。 反 向 传播 将 训练 纺 
码 咒 创建 一 个 合适 的 思想 向 量 ， 而 反 向 传播 的 值 来 自 之 后 下 游 解 码 器 产生 的 误差 。 




















Maria is playing soccer 


®- 
LSTM 


尽管 如 此 ， 编 码 器 和 解码 器 是 独立 的 模块 ， 它 们 之 间 经 常 可 以 互 换 。 例 如 ， 一 旦 编码 器 受 
过 英语 到 德语 翻译 的 训练 ， 不 同 的 编码 器 就 可 以 复 用 来 实现 从 英语 到 西班牙 语 的 翻译 "。 代 码 
清单 10-1 只 展示 了 编码 器 的 情况 。 





思想 向 量 


图 10-7 思想 编码 





代码 清单 10-1 Keras 中 的 思想 编码 





LSTM 层 的 return_state 参数 需要 设 
置 为 True 才能 返回 内 部 状态 


>>> encoder inputs = Input (shape= (None, input vocab size)) 
>>> encoder = LSTM (num neurons, return_state=True) 
>>> encoder_outputs, state_h, state_c encoder (encoder_inputs) 二 一 


>>> encoder_states = (state h, state_c) 7 、 
LSTM 层 的 第 一 个 返回 


值 是 该 层 的 输出 

当 大 家 使 用 关键 字 参 数 return_state=True 实例 化 LSTM Ja (或 多 个 层 ) 时 ，Keras 提 
供 的 RNN 层 可 以 方便 地 返回 它们 的 内 部 状态 。 在 下 面 的 代码 段 中 ， 将 保留 编码 器 的 最 终 状 态 ， 并 
忽略 编码 器 的 实际 输出 。 然 后 将 LSTM 状态 列表 传递 给 解码 器 。 

因为 return sequences 默认 为 False， 所 以 第 一 个 返回 值 是 最 后 一 个 时 刻 的 输出 。 
state _h 是 这 个 层 的 最 后 一 个 时 刻 的 具体 输出 。 因 此 在 本 例 中 , encoder outputs 和 state nh 
是 相同 的 。 无 论 哪 种 方式 ， 都 可 以 忽略 存储 在 encoder outputs 的 正式 输出 。state_c 是 记 
忆 单元 的 当前 状态 。state _h 和 state_c 将 构成 思想 向 量 。 

10-8 展示 了 内 部 LSTM 状态 是 如 何 生成 的 。 编 码 器 在 每 个 时 刻 都 会 更 新 隐藏 状态 和 记忆 
状态 ， 并 将 最 终 状态 作为 初始 状态 传递 给 解码 器 。 




















@ Luong, Le, Sutskever, Vinyals 和 Kaier ( 谷歌 大 脑 ) 在 ICLR 2016 上 描述 了 这 样 一 个 多 任务 模型 的 训练 
方案 ， 称 为 “联合 训练 ”或 “迁移 学 习 ”( 参见 下 载 资源 中 的 1511.06114.pdf 文件 )。 
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1-1 时 刻 的 输出 
前 一 个 时 刻 
50 个 元 素 的 向 量 


x 
拼接 的 输入 让 
350 个 元 素 的 向 量 


遗忘 门 
{时 刻 的 输入 每 个 神经 元 351 个 权重 候选 站 
1 个 词 条 ( 词 或 者 字符 ) (1 个 代表 偏 置 )， (2 个 元 素 ) 
由 300 个 元 素 的 向 量 表示 一 共 17 550 个 


10.2.4 思想 解码 器 


与 编码 器 网 络 设置 类 似 ， 解 码 器 的 设置 非常 简单 。 主 要 的 区 别 在 于 ,这 一 次 我 们 和 希望 在 每 个 
时 刻 上 都 获得 网 络 的 输出 。 我 们 希望 逐个 判断 各 个 词 条 输出 的 “正确 性 ”( 如 图 10-9 所 示 )。 
























记忆 状态 
J 








图 10-8 ”序列 到 序列 编码 器 中 使 用 的 LSTM 状态 








<START> Maria spielt FuBball 





Maria spielt Fußball <END> 


图 10-9 ”思想 解码 器 


这 就 是 使 用 样本 三 元 组 的 第 二 部 分 和 第 三 部 分 的 地 方 。 解 码 器 具有 标准 的 一 个 接 一 个 词 条 的 
输入 和 输出 。 它 们 几乎 是 一 样 的 ,但 相差 一 个 时 刻 。 我 们 希望 解码 需 在 给 定 状态 的 情况 下 ， 学 习 
重新 产生 给 定 输入 序列 的 词 条 ， 而 该 状态 由 传人 编码 器 的 三 元 组 第 一 部 分 产生 。 


注意 这 是 解码 器 ,也 是 一 般 序列 到 序列 模型 的 关键 概念 。 大 家 训练 一 个 网 络 来 输出 次 要 问题 空间 
( 另 一 种 语言 或 另 一 种 存在 体 对 给 定 问 题 的 回复 )。 同 时 对 所 说 的 (输入) 和 回复 (输出) 形成 一 个 
“思想 ”。 这 个 思想 通过 一 个 又 一 个 词 条 决定 了 答案 。 最 终 ， 只 需要 一 个 思想 ( 由 编码 器 生成 ) 和 一 
个 通用 的 初始 词 条 就 可 以 开始 工作 了 。 这 已 经 足以 触发 产生 正确 的 输出 序列 。 


要 计算 训练 阶段 的 误差 , 需要 将 LSTM 层 的 输出 传递 到 一 个 稠密 层 。 笛 密 层 的 神经 元 数量 
将 等 于 所 有 可 能 输出 词 条 的 数量 。 笛 密 层 将 使 用 softmax 激活 函数 覆盖 这 些 词 条 。 因 此 ， 在 每 
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个 时 刻 ， 网 络 将 为 它 认为 最 有 可 能 的 下 一 个 序列 元 素 在 所 有 可 能 词 条 上 提供 一 个 概率 分 布 。 我 
们 取 相 关 神 经 元 值 最 高 的 词 条 。 在 前 面 的 章节 中 ， ie softmax 激活 函数 的 输出 层 
我 们 希望 在 其 中 选择 可 能 性 最 大 的 词 条 (详细 信息 见 第 6 NE) EHER, nun encoder 
tokens 和 output vocab size 不 需要 匹配 , 这 是 序列 到 序列 网 络 的 一 大 优点 。 具体 做 法 参 
见 代 码 清单 10-2。 








代码 清单 10-2 Keras 中 的 思想 解码 器 


函数 式 APL 允许 你 将 初始 状态 传递 给 LSTM 层 ， 方 设置 LSTM 层 ， 类 似 于 编码 器 ， 但 
法 是 将 最 后 一 个 编码 器 状态 赋值 给 initial state 是 附加 了 一 个 return_sequences 参数 








>>> decoder_inputs = Input (shape= (None, output_vocab_size) ) 
>>> decoder lstm = LSTM( 

num_neurons, return_sequences=True, return_state=True) 
>>> decoder_outputs, _, _ = decoder_lstm( 





ae eee decoder_inputs, initial_state=encoder_states) 将 所 有 可 能 字符 映射 到 softmax 
>>> decoder_dense = Dense ( 输出 的 softmax 层 
output_vocab_size, activation='softmax') 











>>> decoder_outputs = decoder_dense (decoder_outputs) < 


将 LSTM 层 的 输出 传 
递 给 softmax 层 





10.2.5 ”组 装 一 个 序列 到 序列 网 络 


Keras 的 函数 式 API 支持 将 模型 组 装 为 对 象 以 便 调用 。Model 对 象 可 以 定义 网 络 的 输入 和 输 
出 部 分 。 对 于 这 个 序列 到 序列 的 网 络 ， 大 家 将 向 模型 传递 一 个 输入 列表 。 在 代码 清单 10-2 中 ， 
定义 了 编码 器 中 的 一 个 输入 层 和 解码 器 中 的 一 个 输入 层 。 这 两 个 输入 对 应 于 每 个 训练 三 元 组 的 前 
两 个 元 素 。 作 为 输出 层 , 将 decoder outputs 传递 给 模型 ， 其 中 包括 之 前 定义 的 整个 模型 设 
Ho decoder outputs 中 的 输出 对 应 于 每 个 训练 三 元 组 的 最 后 一 个 元 素 。 

注意 使 用 这 样 的 函数 式 API，decoder outputs 之 类 的 定义 是 张 量 表示 。 在 这 里 ， 大 家 会 注意 

到 与 前 面 儿 章 描述 的 顺序 式 (sequential) 模型 的 不 同 之 处 。 请 再 次 参阅 文档 了 解 Keras 的 API 的 基 

本 信息 。 具 体 做 法 参见 代码 清单 10-3。 

















代码 清单 10-3 Keras 函数 式 API ( () ) 

















>>> model = Model ( 如 果 期 望 具有 多 个 输入 或 输出 ， 则 
hak inputs=[encoder_inputs, decoder_inputs] 可 以 将 输入 和 输出 参数 定义 为 列表 


outputs=decoder_outputs) 


10.3 ”训练 序列 到 序列 网 络 
在 Keras 模型 中 ， 创 建 序列 到 序列 模型 的 最 后 一 个 步 又 是 编译 (compile ) 和 拟 合 (fit). 与 前 几 
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章 相 比 ， 唯 一 的 区 别 是 ， 我 们 之 前 预测 的 是 二 元 分 类 : 是 或 不 是 。 这 里 有 一 个 单 分 类 ( categorical 
classification ) 或 多 分 类 (multiclass classification ) 问题 。 在 每 个 时 刻 ， 必 须 确 定 许 多 “类 别 ” 中 
的 哪 一 个 是 正确 的 ,这 里 有 很 多 类 别 。 模 型 必须 在 所 有 可 能 的 词 条 之 间 进 行 选择 。 因 为 预测 的 是 
字符 或 词 ， 而 不 是 二 进 制 状态 ， 所 以 大 家 将 基于 categorical_crossentropy 损失 函数 进行 
优化 ， 而 不 是 基于 之 前 使 用 的 pinary_crossentropy。 因 此 ， 这 是 大 家 需要 对 Keras 代码 中 
model.compile 步骤 进行 的 唯一 更 改 ， 如 代码 清单 10-4 所 示 。 














代码 清单 10-4 Æ Keras 中 训练 一 个 序列 到 序列 模型 


>>>model.compile(optimizer='rmsprop', loss='categorical_crossentropy') 
>>> model.fit([encoder_input_data, decoder_input_data], 


decoder_target_data, ¥ loss 函数 设置 
batch_size=batch_size, epochs=epochs) 为 categorical 
crossentropy 





该 模型 期 望 训练 输入 为 一 个 列表 ， 在 训练 期 间 第 一 个 列表 

元 素 传递 给 编码 器 网 络 ， 第 二 个 元 素 传递 给 解码 器 网 络 
AS! 通过 调用 mogel .fit 函数 ， 大 家 正在 训练 序列 到 序列 的 端 到 端 网 络 。 在 下 面 的 章节 
我 们 将 演示 如 何 为 给 定 的 输入 序列 推测 输出 结果 。 


注意 ”序列 到 序列 网 络 的 训练 是 计算 密集 型 的 ， 因 此 非常 耗 时 。 如 果 大 家 的 训练 序列 很 长 ， 或 者 我 
们 想 用 一 个 大 型 的 语料库 来 训练 ， 我 们 强烈 建议 在 GPU 上 训练 这 些 网 络 ， 这 样 可 以 将 训练 速度 提 
高 30 倍 。 如 果 从 未 在 GPU 上 训练 过 神经 网 络 ， 别 担心 。 查 看 第 13 章 关 于 如 何在 商业 计算 云 服务 
上 租用 和 设置 自己 的 GPU。 

LSTM 本 质 上 不 像 卷 积 神经 网 络 那样 是 可 并 行 的 ,所 以 为 了 充分 利用 GPU, 我 们 应 该 用 CuDNNLSTM 
替换 LSTM 层 ， 这 是 为 了 在 CUDA 支持 的 GPU 上 进行 训练 而 优化 的 网 络 层 。 

















生成 输出 序列 


在 生成 序列 之 前 , 需要 获取 训练 层 的 结构 ， 并 将 其 重新 组 装 以 用 于 生成 序列 。 首 先 , 定义 特 
定编 码 器 的 模型 。 这 个 模型 将 被 用 来 生成 思想 向 量 。 具 体 做 法 参见 代码 清单 10-5。 


代码 清单 10-5 “使 用 通用 Keras Model 生成 文本 的 解码 器 


>>> encoder_model = Model (inputs=encoder_inputs, outputs=encoder_states) 
tes, 








这 里 使 用 前 面 定义 的 encoder inputs 和 encoder sta 
在 此 模型 上 调用 预测 方法 将 返回 思想 向 量 









































解码 器 的 定义 看 起 来 令 人 生长, 但 是 让 我 们 一 步 一 步 理 清 代 码 的 各 个 片段 。 首 先 ,我 们 将 定 
义 解 码 器 的 输入 。 我 们 使 用 Keras 输入 层 ， 但 是 我 们 传递 的 是 编码 器 网 络 生成 的 思想 向 量 ， 而 不 
是 传递 独 热 向 量 、 字 符 或 词 内 入 。 注 意 ， 编 码 器 返回 一 个 包含 两 种 状态 的 列表 , 在 调用 之 前 定义 
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的 decoder lstm 时 , 需要 将 该 列表 传递 给 initial state BR, KA, 将 LSTM 层 的 输出 
传递 给 之 前 也 定义 过 的 稠密 层 。 该 层 的 输出 将 提供 所 有 人 解码 器 输出 词 条 (在 本 例 中 ,所 有 在 训练 
阶段 看 到 的 字符 ) 的 概率 。 

这 里 是 神奇 的 部 分 。 在 每 个 时 刻 , 预测 概率 最 高 的 词 条 接 下 来 将 作为 最 有 可 能 的 词 条 返回 给 
解码 器 网 络 ， 并 作为 新 输入 继续 传递 到 解码 器 的 下 一 个 迭代 步 又 。 具 体 做 法 参见 代码 清单 10-6。 


代码 清单 10-6 ”随机 思想 的 序列 生成 器 
>>> thought_input = [Input (shape= (num neurons,)), ee ae 


Input (shape=(num_neurons, ) ) ] 




















>>> decoder_outputs, state_h, state_c = decoder_lstm/( 将 编码 器 状态 作为 初始 状态 传 
sr decoder_inputs, initial_state=thought_input) 递 给 LSTM 层 
>>> decoder_states = [state_h, state_c] x wae 
-—> >>> decoder_outputs = decoder_dense(decoder_outputs) Be LSTM 状态 将 成 为 下 
一 次 达 代 的 新 细胞 状态 
最 后 一 步 是 将 解码 器 
>>> decoder model = Model ( 模型 绑 定 在 一 起 
inputs=[decoder_inputs] + thought_input, < 
output=[decoder_outputs] + decoder_states) 
将 输出 从 LSTM 传递 到 稠密 将 稠密 层 的 输出 和 更 新 后 的 decoder inputs 和 thought_input 
层 ， 以 预测 下 一 个 词 条 状态 定义 为 输出 成 为 解码 器 模型 的 输入 








一 旦 建立 了 模型 ,大 家 就 可 以 根据 一 个 独 热 编码 的 输入 序列 和 最 后 生成 的 词 条 来 预测 思想 
向 量 ， 从 而 生成 整个 序列 。 在 第 一 次 迭代 期 间 ，target seq 被 设置 为 初始 总 司 条 。 在 接 下 来 的 
所 有 迭代 中 , target seg 将 使 用 最 后 生成 的 词 条 进行 更 新 。 这 个 循环 会 一 直 进 行 下 去 ， 直 到 
达到 序列 元 素 的 最 大 数量 或 者 解码 器 生成 一 个 终止 词 条 ， co ee 具体 做 法 参见 代 
码 清单 10-7。 




















代码 清单 10-7 ”简单 的 解码 器 一 一 预测 下 一 个 词 


将 输入 序列 编码 为 思想 向 量 (LSTM 
eu 记忆 细胞 状态 ) 
>>> thought = encoder_model.predict (input_seq) 








>>> while not stop_condition: <I 
output_token, h, c = decoder_model.predict ( 


[target_seq] + thought) ” 每 次 迭代 之 后 都 会 更 新 stop condition, 如 果 满 
内 部 

















解码 器 返回 具有 最 高 概率 的 词 条 和 足 输出 序列 词 条 的 最 大 数量 或 者 解码 器 生成 
状态 ， 这 些 将 在 下 一 次 迭代 中 复 用 一 个 终止 词 条 ， 则 stop_condition 变 为 True 


























10.4 使 用 序列 到 序列 网 络 构建 一 个 聊天 机 器 人 
在 前 面 的 小 节 中 , 大 家 学 习 了 如 何 训练 序列 到 序列 的 网 络 , 以 及 如 何 使 用 训练 过 的 网 络 生成 
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序列 回复 。 在 接 下 来 的 这 节 中 ， 我 们 将 指导 大 家 如 何 应 用 各 种 步骤 来 训练 一 个 聊天 机 器 人 。 为 
了 训练 聊天 机 器 人 ， 我 们 将 使 用 康 奈 尔 电影 对 话语 料 库 "。 大 家 将 训练 一 个 序列 到 序列 的 网 络 
来 “适当 地 ”回答 大 家 的 问题 或 语句 。 我 们 的 聊天 机 器 人 示例 采用 的 是 Keras blog 中 的 序列 到 序 
列 的 示例 。 





10.4.1 为 训练 准备 语料库 


首先 ， 大 家 需要 加 载 语料库 并 从 中 生成 训练 集 。 训 练 数据 将 决定 编码 器 和 解码 器 在 训练 阶段 和 
生成 阶段 所 支持 的 字符 集 。 请 注意 ， 该 实现 代码 不 支持 在 训练 阶段 未 包含 的 字符 。 使 用 整个 Cornell 
Movie Dialog 数据 集 可 能 需要 大 量 的 计算 ,因为 一 些 序列 有 超过 2000 个 词 条 一 一 2000 个 时 刻 , 需要 
一 段 时 间 才 能 展开 。 但 是 大 多 数 对话 样 本 都 是 基于 少 于 100 个 字符 的 。 对 于 本 例 ， 可 以 通过 将 样 
本 限制 为 少 于 100 个 字符 、 删 除 奇 怪 字符 和 只 允许 使 用 小 写字 符 ， 对 对 话语 料 库 进行 预 处 理 。 通 过 
这 些 处 理 ， 可 以 限制 字符 的 种 类 。 大 家 可 以 在 本 书 的 GitHub 存储 库 中 找到 预 处 理 过 的 语料库 。” 

大 家 将 遍历 语料库 文件 并 生成 训练 对 ( 技术 上 来 说 是 三 元 组 形式 : 输入 文本 、 带 有 初始 词 条 
的 目标 文本 和 目标 文本 )。 在 阅读 语料库 时 ， 还 将 生成 一 组 输入 字符 和 目标 字符 ， 然 后 将 使 用 这 
些 字符 对 样本 进行 独 热 编码 。 输 入 字符 和 目标 字符 的 数量 不 必 完 全 匹配 。 但 是 在 生成 阶段 ,不 能 
读 取 或 生成 不 包含 在 训练 集中 的 字符 。 代 码 清单 10-8 中 给 出 的 结果 是 输入 文本 和 目标 文本 ( 字 
符 串 ) 的 两 个 列表 ， 以 及 训练 语料库 中 出 现 的 两 组 字符 。 






































代码 清单 10-8 ”建立 基于 字符 的 序列 到 序列 训练 集 








目标 序列 用 start (第 一 个 ) 和 stop (最 后 一 个 ) 





























这 个 集合 保存 输入 文本 和 | e | | 词 条 进行 注释 ， 这 里 定义 了 表示 词 条 的 字符 。 
目标 文本 中 出 现 过 的 字符 数组 保存 从 语料库 文件 中 读 | | 这 些 词 条 不 能 作为 普通 序列 文本 的 一 部 分 ， 而 
































i : e 

取 的 输入 文本 和 目标 文本 。 | | 应 该 仅仅 作为 初始 词 条 和 终止 词 条 而 使 用 
from nlpia.loaders import get_data 
df = get_data('moviedialog') 























input_texts, target_texts = [], [] max training samples 定义 了 
input_vocabulary = set() 训练 使 用 的 行 数 。 它 是 用 户 
output_vocabulary = set() 定义 的 最 大 值 和 从 文件 中 加 
start_token = '\t' I 载 的 总 行 数 中 较 小 的 数 
stop_token = '\n' 

>>> max_training_samples = min(25000, len(df) - 1) 


>>> for input_text, target_text in zip(df.statement, df.reply): 
target_text = start_token + target_text \ 
+ stop_token = . 
i p- i target text 需要 用 起 始 词 条 
input_texts.append(input_text) AV bial REGS 
target_texts.append(target_text) SIR IVA HET TEL 


























D 详 见 标题 为 “Cornell Movie-Dialogs Corpus” 的 网 页 。 
© 详 见 标题 为 “keras/examples/lstm_ seq2seq.py at master” 的 网 页 。 
®© 参见 本 书 GitHub 上 标题 为 “GitHub - totalgood/mlpia” 的 网 页 。 
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for char in input_text: 编译 词汇 表 input_text 


if char not in input_vocabulary: 出现 } (ee - 
现 过 的 唯一 字符 的 集合 
input_vocabulary.add(char) 中 出 现 过 的 唯一 字符 的 集合 


for char in target text: 
if char not in output vocabulary: 
output vocabulary.add (char) 





10.4.2 ”建立 字符 字典 


与 前 几 章 中 的 示例 类 似 , 大 家 需要 将 输入 文本 和 目标 文本 的 每 个 字符 转换 为 表示 每 个 字符 的 
独 热 向 量 。 为 了 生成 独 热 向 量 ,需要 生成 词 条 字典 ( 用 于 输入 文本 和 目标 文本 )， 其 中 每 个 字符 
都 被 映射 到 一 个 索引 。 男 外 ， 还 将 生成 反 向 字典 ( 索引 映射 为 字符 )， 在 生成 阶段 将 使 用 该 反 向 
字典 将 生成 的 索引 转换 为 字符 。 具 体 做 法 参见 代码 清单 10-9。 


代码 清单 10-9 字符 级 序列 到 序列 模型 参数 






























































对 于 输入 数据 和 目标 数据 , 还 将 字符 集 转换 为 排序 后 的 字符 列 

需 确定 序列 词 条 的 最 大 数量 表 ， 然 后 使 用 该 列表 生成 字典 对 于 输入 数据 和 目标 数据 ， 
en iii Saute ree 确定 唯一 字符 的 最 大 数量 ， 

input_vocabulary = sorted(input_vocabulary 5 pz Aat 

>>> output_vocabulary = sorted(output_vocabulary) 于 构建 一 个 独 热 矩阵 
>>> input_vocab_size = len(input_vocabulary) 
>>> output_vocab_size = len(output_vocabulary) 
>>> max_encoder_seq_ length = max ( 

J [len (txt) for txt in input texts]) 循环 遍历 input_vocabulary 和 
>>> max_decoder seq length = max ( output vocabulary 来 创建 查 

[len (txt) for txt in target_texts]) 找 字典 ， 用 于 生成 独 热 向 量 、 

>>> input_token_index = dict([(char, i) for i, char in 








ws, enumerate (input_vocabulary) J) < 
>>> target_ token _index = dict ( 

ate [(char, i) for i, char in enumerate (output_vocabulary) ]) 
>>> reverse _input_char_index = dict((i, char) for char, i in 





input_ token _index.items() ) < 
>>> reverse_target_char_index = dict((i, char) for char, i in 
target_token_index.items ()) 循环 遍历 新 创建 的 字典 以 








创建 反 向 查找 表 


10.4.3 ”生成 独 热 编码 训练 集 


下 一 步 ， 将 输入 文本 和 目标 文本 转换 为 独 热 编码 的 “ 张 量 "。 为 了 做 到 这 点 ， 需 要 循环 遍历 
每 个 输入 样本 和 目标 样本 以 及 每 个 样本 的 每 个 字符 , 并 对 每 个 字符 进行 独 热 编码 。 每 个 字符 由 
个 nx1 向 量 编码 (其 中 是 唯一 的 输入 字符 或 目标 字符 的 个 数 )。 然后 针对 每 个 样本 将 所 有 向 量 
组 合 以 创建 一 个 矩阵 ， 并 将 所 有 样本 组 合 以 创建 要 训练 的 张 量 。 具 体 做 法 参见 代码 清单 10-10。 
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代码 清单 10-10 ”构造 字符 级 序列 编码 -解码 训练 集 








>>> import numpy as np 在 矩阵 操作 中 使 














] numpy 





>>> encoder_input_data = np.zeros((len(input_texts), 
max_encoder_seq_length, input_vocab_size), 
Ns dtype='float32') < 一 一 
>>> decoder_input_data = np.zeros((len(input_texts), 
max_decoder_seq_ length, output_vocab_size), 

x dtype='float32') 

>>> decoder_target_data = np.zeros((len(input_texts), 
max_decoder_seq_length, output_vocab_size), 
dtype='float32') 














训练 的 张 量 初始 化 为 形状 为 mum 


samples, max_len_sequence, num_ 








unique tokens in vocab) WJ43kit 








>>> for i, (input_text, target_text) in enumerate ( 
zip(input_texts, target_texts)): 





对 训练 样本 进行 循 























for £; oe in Fo A 循环 遍历 每 个 样 环 遍 历 , 输入 文本 和 
encoder_input_data = aoe 
m... i, t, input_token_index[char]] = 1. 本 的 每 个 字符 目标 文本 需要 对 应 
for t, char in enumerate (target_text): < 
decoder_input_data[ 
i, t, target_token_index[char]] = 1. 
ie te Os 
decoder_target_data[i, t - 1, target_token_index[char]] = 1 
将 每 个 时 刻字 符 的 索引 设置 为 1， 其 他 所 
有 索引 仍 保持 为 0。 这 将 创建 训练 样本 的 对 解码 需 的 训练 数据 , 大 家 将 创建 decoder input data 
独 热 编码 表示 和 decoder_target_data ( 后 者 落后 于 前 者 一 个 时 刻 ) 





10.4.4 训练 序列 到 序列 聊天 机 器 人 


Re aks | 练 集 的 工作 一 一 将 预 处 理 的 语料库 转换 为 输入 样本 和 目标 样本 , 创建 索引 查 

字典 ,并 将 样本 转换 为 独 热 张 量 之 后 ,终于 是 时 候 训练 聊天 机 器 人 了 。 代 码 与 前 面 的 示例 完全 
a —H model. fit 函数 完成 了 训练 , 大 家 就 拥有 了 一 个 基于 序列 到 序列 网 络 的 完全 训练 好 
的 聊天 机 器 人 了 。 具 体 做 法 参见 代码 清单 10-11。 





代码 清单 10-11 构造 和 训练 一 个 字符 级 序列 编码 -解码 网 络 





在 本 例 中 , 将 批 处 理 大 小 设置 为 64 个 

样本 。 增 加 批 处 理 大 小 可 以 加 快 训练 

速度 ， 但 它 也 需要 更 多 的 内 存 
>>> from keras.models import Model 
>>> from keras.layers import Input, LSTM, Dense 训练 一 个 序列 到 序列 的 网 络 
可 能 很 长 , 一 般 至 少 需要 100 
个 训练 周期 














>>> batch size = 64 
>>> epochs = 100 
>>> num_neurons = 256 < 在 本 例 中 ,将 神经 元 维 
数 设 置 为 256 








>>> encoder inputs = Input (shape= (None, input vocab size)) 
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>>> 
>>> 


>>> 


encod 
encod 
encoa 


er 
er_outputs, 
er_states 


LSTM (num neurons, = 
state_h, state c = 
{[state_h, state cl] 


Pog 
>>> 


decod 
decod 


er_inputs 
er_lstm 


Input (shape= (None, 
LSTM (num neurons, 
return_state=True) 


>>> decoder_outputs, _, 
initial _state=encoder states) 
decoder _dense 
decoder_outputs 
model Model ([encoder_inputs, 


>>> 
>>> 
>>> 





>>> model.compile(optimizer='rmsprop', 
metrics=['acc']) 
model.fit([encoder_input_data, 
decoder_target_data, 
validation_split=0.1) 


>>> 


10.4.5 ”组装 序列 生成 模型 


_ = decoder_lstm(decoder_inputs, 
Dense (output_vocab_size, 
decoder_dense (decoder_outputs) 
decoder_inputs], 


loss= 


decoder_input_data], 
batch_size=batch_size, 


亨 列 建 模 和 注意 力 机 制 





return_state=True) 
encoder (encoder_inputs) 


output_vocab_size) ) 
return_sequences=True, 


在 每 个 训练 周期 之 
后 ， 预 留 10% 的 样 
本 用 于 验证 测试 











activation='softmax') 
decoder_outputs) 


"categorical_crossentropy', 


epochs=epochs, 








组 装 序列 生成 模型 与 我 们 在 前 面 几 节 中 讨论 的 非常 相似 。 但 是 必须 进行 一 些 调整 ,因为 没有 


特定 的 目标 文本 和 状态 输入 解码 器 。 大 家 所 拥有 的 只 
清单 10-12。 





! 是 输入 和 一 个 初始 词 条 。 具体 做 法 参见 代码 


代码 清单 10-12 ”构造 回复 生成 器 模型 





>>> encoder model = Model (encoder inputs, encoder states) 

>>> thought input = [ 

Input (shape= (num neurons,)), Input (Shape=(num_neurons,) ) ] 

>>> decoder_outputs, state_h, state_c = decoder_lstm/( 
decoder_inputs, initial_state=thought_input) 

>>> decoder_states = [state_h, state_c] 

>>> decoder_outputs = decoder_dense (decoder_outputs) 

>>> decoder_model = Model ( 
inputs=[decoder_inputs] + thought_input, 


output=[decoder_outputs] 


10.4.6 ”预测 输出 序列 





decode_sequence 限 数 是 聊天 机 器 人 生成 回复 的 核心 。 
成 思想 向 量 ， 并 使 用 思想 


单 10-13。 


向 量 通过 之 前 训练 好 的 网 络 生 成 适合 的 回复 。 具 


+ decoder states) 


热 编 


TON 


它 接受 独 热 编码 的 输入 序列 , AE 


具体 做 法 参见 代码 清 
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代码 清单 10-13 ”建立 基于 字符 的 翻译 器 
>>> def decode sequence (input_seq): 生成 思想 向 量 作为 
sot Ld 








thought = encoder_model.predict (input_seq) Pete TA 


target_seq = np.zeros((1, 1, output_vocab_size) ) <}-—_ Jz 
与 训练 相反 
target_seq[0, 0, target_token_index[stop_token] 


J= i 第 一 个 输入 词 
stop_condition = False 解码 器 的 第 Ai 


generated_sequence = '! 条 是 初始 词 条 


, target_seq 
一 开始 是 一 个 零 张 量 











将 已 生成 的 词 条 和 最 新 状 








while not stop condition: 态 传 递 给 解码 器 ， 以 预测 下 
output_tokens, h, c = decoder_model.predict ( 一 个 序列 元 素 


[target_seq] + thought) 


generated_token_idx = np.argmax(output_tokens[0, -1, :]) 
generated_char = reverse _target_char_index[generated_token_idx] 
generated_sequence += generated_char 
if (generated_char == stop_token or 

len(generated_sequence) > max_decoder_seq_length 

) : ya stop_condition 设置 为 True 将 停止 循环 

stop_condition = True 

target_seq = np.zeros((1, 1, output_vocab_size) ) 


























aa ne a generated_token_idx] = 1. 更 新 目标 序列 ,并 使 用 最 后 
' 生成 的 词 条 作为 下 一 生成 
步 又 的 输入 


return generated_sequence 








10.4.7 ”生成 回复 


现在 ， 大 家 将 定义 一 个 辅助 函数 response () ， 用 于 将 输入 字符 串 〈 例如 来 自 人 类 用 户 的 
语句 ) 转换 为 聊天 机 器 人 的 回复 。 该 函数 首先 将 用 户 输入 的 文本 转换 为 由 独 热 编码 向 量 组 成 的 序 
列 。 然 后 将 这 个 独 热 向 量 的 张 量 传递 给 前 面 定义 的 decode_sequence () 函数 。 它 将 输入 的 文 
本 编码 成 思想 向 量 ， 并 将 这 些 思想 向 量 生成 文本 。 

注意 ”关键 点 不 在 于 向 解码 器 提供 初始 状态 〈 即 思想 向 量 ) 和 输入 序列 ， 而 是 只 提供 思想 向 量 和 初 

台词 条 。 给 定 初始 状态 和 初始 词 条 ， 解 码 器 生成 的 词 条 在 第 2 个 时 刻 成 为 解码 器 的 输入 ， 而 第 2 

时 刻 的 输出 又 变 成 第 3 个 时 刻 的 输入 ， 以 此 类 推 。LSTM 记忆 状态 始终 都 在 更 新 记 eee 

就 像 我 们 在 第 9 章 中 看 到 的 那样 : 












































对 输入 文本 的 每 个 字符 进行 循环 遍历 ， 生 成 独 
热 张 量 ， 以 便 编码 器 从 中 生成 思想 向 量 











>>> def response (input text): 

input_seq = np.zeros((1, max encoder seq length, input_vocab_size), 
dtype='float32') 

for t, char in enumerate (input_text): 
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input_seq[0, t, input_token_index[char]] = 1. 
decoded_sentence = decode_sequence (input_seq) 
print('Bot Reply (Decoded sentence):', decoded_sentence) 

使 用 decode sequence PK% AA 
训练 好 的 模型 生成 回复 序列 
































10.4.8 与 聊天 机 器 人 交谈 


大 家 刚刚 完成 了 训练 和 测试 聊天 机 器 人 的 所 有 必要 步 又 。 接 下 来 , 大 家 是 否 对 于 聊天 机 器 人 
回复 的 内 容 感 兴趣 呢 ? 在 NVIDIA GRID K520 GPU 上 花费 大 约 7 个 半 小 时 训练 100 个 周期 之 后 ， 
这 个 训练 有 素 的 序列 到 序列 闲聊 机 器 人 仍然 有 点 顽固 、 说 话 简短 。 一 个 更 大 、 更 通用 的 训练 语 料 
集 可 以 改变 这 种 表现 : 


>>> response("what is the internet?") 
Bot Reply (Decoded sentence): it's the best thing i can think of anything. 











>>> response ("why?") 
Bot Reply (Decoded sentence): i don't know. i think it's too late. 


>>> response("do you like coffee?") 
Bot Reply (Decoded sentence): yes. 





>>> response("do you like football?") 
Bot Reply (Decoded sentence): yeah. 


注意 如 果 大 家 不 想 设置 GPU 或 训练 自己 的 聊天 机 器 人 ， 不 用 担心 ， 我 们 会 提供 训练 后 的 聊天 机 
器 人 供 大 家 测试 。 请 移 步 本 书 的 GitHub 存储 库 ,查看 最 新 版 本 的 聊天 机 器 人 。 如 果 大 家 收 到 聊天 
机 器 人 任何 有 趣 的 回复 ， 也 请 告诉 作者 。 


























10.5 增强 


有 两 种 增强 训练 序列 到 序列 模型 的 方法 ,可 以 提高 模型 的 精确 率 和 可 扩展 性 。 像 人 类 学 习 一 
样 ， 深 度 学 习 会 从 精心 设计 的 课程 中 受益 。 大 家 需要 对 训练 材料 进行 分 类 和 排序 ， 以 确保 模型 快 
速 学 习 吸 收 ， 并 且 我 们 需要 确保 老师 能 突出 文档 中 最 重要 的 部 分 。 











10.5.1 使 用 装 桶 法 降低 训练 复杂 度 


输入 序列 可 以 有 不 同 的 长 度 , 这 使 短 序列 的 训练 数据 添加 了 大 量 填充 词 条 。 过 多 的 填充 会 使 
计算 成 本 高 郧 ,特别 是 当 大 多 数 序列 都 很 短 ， 只 有 少数 序列 接近 最 大 词 条 长 度 时 。 假设 大 家 用 数 
据 训 练 序列 到 序列 网 络 ， 其 中 几乎 所 有 的 样本 都 是 100 个 词 条 长 ， 只 有 几 个 包含 1000 个 词 条 的 
异常 值 除 外 。 若 不 进行 装 桶 (bucketing )， 我 们 需要 用 900 个 填充 词 条 填充 大 部 分 训练 数据 ， 并 












































D 详 见 本 书 GitHub 上 标题 为 “GitHub - totalgoodmlpia” 的 网 页 。 
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且 在 训练 阶段 , 序列 到 序列 网 络 必 须 对 填充 词 条 进行 循环 遍历 。 这 种 填充 数据 会 大 大 减缓 训练 速 
度 。 在 这 种 情况 下 ， 装 桶 法 可 以 减少 计算 量 。 我们 可 以 按 长 度 对 序列 排序 ， 并 在 不 同 的 批 处 理 期 
间 使 用 不 同 的 序列 长 度 。 我 们 将 输入 序列 分 配 到 不 同 长 度 的 桶 中 , 例如 长 度 在 5 ~ 10 个 词 条 之 间 
的 所 有 序列 放 在 一 个 桶 中 ,然后 训练 该 批 次 时 使 用 这 个 序列 的 桶 , 例如 ， 先 训练 5 ~ 10 个 词 条 之 
间 的 所 有 序列 ， 然 后 训练 10 ~ 15 个 词 条 之 间 的 所 有 序列 ， 等 等 。 一 些 深度 学 习 框 架 提 供 了 一 些 
装 桶 工具 为 输入 数据 提供 最 佳 装 桶 方式 。 

如 图 10-10 所 示 ， 序 列 首先 按 长 度 排序 ,然后 仅 填 充 到 特定 桶 的 最 大 词 条 长 度 。 这样 ,在 训 
练 序列 到 序列 网 络 时 ,可 以 减少 所 有 批 处 理 所 需 的 时 刻 数 量 。 在 指定 的 批 处 理 中 ,只 在 需要 的 范 
町内 《到 最 长 的 序列 ) 展开 网 络 。 


























































































































初始 序列 终止 

词 条 元 素 词 条 “ore 
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国 国 国 国 国 国 国 国 国 国 国 国 国 口 口 口 BORO 








图 10-10 324% (bucketing ) 应 用 于 目标 序列 


10.5.2 ”注意 力 机 制 


与 第 4 章 中 介绍 的 潜在 语义 分 析 一 样 , 较 长 的 输入 序列 (文档 ) 倾向 于 产生 不 精确 表示 这 些 
文档 的 思想 向 量 。 思 想 向 量 受 LSTM 层 ( 神经 元 数量 ) 维 数 的 限制 。 对 于 短 输入 /输出 序列 ， 一 
个 思想 向 量 就 足够 了 ， 类 似 于 这 个 聊天 机 器 人 示例 。 但 是 想象 一 下 , 我 们 想 训 练 一 个 序列 到 序列 
模型 来 概述 在 线 文章 。 在 这 种 情况 下 , 输入 序列 可 以 是 一 篇 很 长 的 文章 ,要 将 这 篇 文章 压缩 到 一 
个 思想 向 量 中 ,以 生成 一 个 标题 。 可 以 想象 ,训练 网 络 来 确定 较 长 的 文档 中 最 相关 的 信息 是 很 棘 
手 的 。 标 题 或 摘要 ( 以 及 相关 的 思想 向 量 ) 必须 关注 该 文档 的 某 个 特定 方面 或 部 分 ， 而 不 是 试图 
表示 其 具有 的 所 有 复杂 含义 。 

2015 年 ，Bahdanau 等 人 在 国际 表示 学 习 大 会 ( International Conference on Learning 
Representations, ICLR ) 上 提出 了 他 们 对 这 一 问题 的 解决 方案 `。 作 者 提出 的 这 个 概念 后 来 被 称 为 

















D 详 见 标题 为 “Neural Machine Translation by Jointly Learning to Align and Translate” 的 网 页 。 
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注意 力 机 制 (attention mechanism ) ( 如 图 10-11 所 示 )。 顾 名 思 义 ,这 个 想法 是 要 告诉 解码 需 应 该 
注意 输入 序列 中 的 哪些 部 分 。 这 种 “预演 ”是 通过 人 允许 解码 器 除 查 看 思想 向 量 外 ,还 允许 查看 编 
码 器 网 络 的 所 有 状态 来 实现 的 。 整 个 输入 序列 上 的 “ 热 图 ”( heat map ) 版 本 将 与 网 络 的 其 他 部 分 
一 起 学 习 。 每 个 时 刻 不 同 的 映射 会 与 解码 器 共享 。 当 它 解 码 序列 的 某 个 特定 部 分 时 ,思想 向 量 产 
生 的 概念 会 被 它 直 接 产 生 的 信息 所 增强 扩充 。 换 句 话说 , 注意 力 机 制 通过 选择 与 输出 相关 的 输入 
部 分 ,允许 输入 和 输出 之 间 直 接连 接 。 这 并 不 意味 着 输入 和 输出 序列 的 词 条 要 对 齐 ， 因 为 那样 就 
违背 了 目标 , 使 我 们 返回 到 了 自 编 码 器 的 阶段 。 无 论 概念 的 表示 出 现在 序列 中 的 哪个 部 分 , 它 ( 注 
意 力 机 制 ) 都 可 以 使 它们 更 加 丰富 。 


” eee 





























注意 力 机 制 
















解码 器 






Z] 10-11 ”注意 力 机 制 概 况 


有 了 注意 力 机 制 ， 在 给 定 解码 器 时 刻 时 ， 解码 器 都 会 接收 一 个 额外 的 具有 每 个 时 刻 的 输入 ， 
表示 要 “注意 ”的 输入 序列 中 的 一 个 (或 多 个 ) 词 条 。 编 码 器 中 所 有 序列 的 重要 程度 将 由 解码 器 
各 个 时 刻 的 加 权 平 均值 表示 。 
配置 和 调 优 注意 力 机 制 并 不 简单 , 但 是 各 种 深度 学 习 框 架 都 提供 了 简单 的 实现 方法 。 在 撰写 
本 书 时 ，Keras 包 的 注意 力 相关 代码 被 讨论 过 ,但 是 目前 还 没有 接受 任何 代码 实现 。 


















































10.6 ”实际 应 用 


序列 到 序列 网 络 非常 适合 所 有 具有 可 变 长 度 输入 序列 或 可 变 长 度 输 出 序列 的 机 带 学 习 应 用 。 
由 于 自然 语言 的 词 序列 几乎 总 是 有 不 可 预测 的 长 度 ， 因 此 序列 到 序列 模型 可 以 提高 大 多 数 机 器 学 
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习 模 型 的 精确 率 。 

目前 序列 到 序列 结构 的 主要 应 用 有 : 
聊天 机 器 人 对 话 ; 
问答 系统 ; 

机 需 翻译 ; 
图 像 描述 ; 
可 视 化 问答 ; 
文档 摘要 。 

正如 大 家 在 前 几 节 中 看 到 的 ， 对 话 系 统 是 NLP 领域 的 一 个 常见 应 用 。 序 列 到 序列 模型 是 生 
成 式 的 ， 这 使 它 特别 适合 应 用 于 对 话 系统 ( 聊天 机 器 人 )。 序 列 到 序列 的 聊天 机 器 人 可 以 生成 比 
信息 检索 或 基于 知识 的 聊天 机 器 人 更 多 样 、 更 具 创造 性 和 更 口语 化 的 对 话 。 对 话 系统 模拟 人 们 在 
多 类 主题 上 的 对 话 。 序 列 到 序列 的 聊天 机 器 人 可 以 从 限定 领域 的 语料库 中 进行 泛 化 学 习 , 但 对 其 
训练 集中 不 包含 的 主题 也 可 以 做 出 合理 的 响应 。 相 反 ， 基 于 知识 的 对 话 系统 的 “基础 ”( 在 第 12 
章 中 讨论 ) 会 限制 它们 参与 训练 数据 之 外 主题 的 对 话 的 能 力 。 第 12 章 更 详细 地 比较 了 聊天 机 器 
人 不 同 架 构 的 表现 。 

除 康 奈 尔 电影 对 话语 料 库 之 外 , 还 有 各 种 免费 和 开源 的 训练 集 ， 如 Deep Mind 的 问答 数据 集 
( DeepMind Q&A Dataset ) “。 当 大 家 想 要 自己 的 对 话 系统 在 特定 领域 中 能 够 有 效 地 回复 时 ， 需 要 
在 该 领域 的 语料库 中 对 其 进行 训练 。 思想 向 量 只 有 有 限 的 信息 容量 , 需要 用 关于 聊天 机 器 人 熟悉 
的 主题 的 信息 来 填充 该 容量 。 

序列 到 序列 网 络 的 另 一 个 常见 应 用 是 机 器 翻译 。 思 想 向 量 的 概念 允许 翻译 程序 结合 输入 数 
据 的 上 下 文 ， 这 样 具有 多 种 含义 的 词 也 可 以 在 明确 的 上 下 文中 翻译 。 如 果 想 构建 翻译 应 用 程序 ， 
ManyThings 网 站 提供 了 可 以 用 作 训 练 集 的 句子 对 。 我 们 在 nlpia 包 中 为 大 家 提供 了 这 些 句 子 
对 。 例 如 ， 在 代码 清单 10-8 中 ， 对 于 英语 -德语 语句 对 ， 可 以 使 用 get data ('deu-eng' ) 替换 
get_data('moviedialog'). 

由 于 输入 和 输出 的 字符 串 长 度 可 以 不 同 , 序列 到 序列 模型 也 非常 适用 于 文档 摘要 。 在 这 种 情 
况 下 ， 编 码 器 网 络 的 输入 是 ， 例 如 ， 新 闻 报 道 (或 任何 其 他 长 度 的 文档 ) 而 解码 器 可 以 训练 生成 
标题 、 摘 要 或 其 他 任何 与 文档 相关 的 总 结 性 序列 。 序 列 到 序列 网 络 可 以 提供 一 个 比 基 于 词 袋 向 量 
( bag-of-word ) 统计 的 摘要 方法 更 自然 的 文本 摘要 方式 。 如 果 读 者 对 开发 这 样 一 个 应 用 程序 感 兴 
ABR, Kaggle 的 新 闻 摘要 比赛 提供 了 一 份 很 好 的 训练 集 。” 

序列 到 序列 网 络 并 不 局 限于 自然 语言 应 用 。 另 外 两 个 常见 应 用 是 自动 语音 识别 和 图 像 描述 。 




















































































































D 参见 本 书 GitHub 上 的 nlpia 包 文档 中 的 对 话语 料 库 列表 (https://github.com/totalgood/nlpia/blob/master/docs/ 
notes/nlp--data.md#dialog-corpora )。 

© Kaggle 是 一 个 著名 的 比赛 网 站 ， 上 面 有 各 种 各 种 的 比赛 任务 ， 新 闻 摘 要 (News Summary ) 是 其 中 的 一 
个 比赛 任务 。 一 一 译 者 注 

© 详 见 标题 为 “NEWS SUMMARY: Kaggle” 的 网 页 。 
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目前 ， 


量 , 而 序列 到 序列 解码 带 将 思想 向 量 转 换 为 语音 的 文本 翻译 。 同 样 的 概念 也 适用 于 图 像 描 述 。 图 
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最 先进 的 自动 语音 识别 系统 使 用 序列 到 序列 网 络 将 语音 输入 幅度 样本 序列 转换 为 思想 向 








像 像 素 序列 〈 无 论 图 像 分 辩 率 如 何 ) 可 以 用 作 编 码 器 的 输入 , 并且 可 以 训练 解码 器 生成 合适 的 描 
述 。 事 实 上 ， 大 家 可 以 在 网 上 找到 一 个 图 像 描述 和 问答 系统 的 组 合 应 用 程序 ， 称 为 可 视 化 问答 。 


10.7 

















小 结 








序列 到 序列 网 络 可 以 使 用 模块 化 、 可 复 用 的 编码 -解码 架构 来 构建 。 

编码 需 模 型 生成 一 个 思想 向 量 ， 这 是 一 个 稠密 的 、 固 定 维度 的 向 量 ， 表 示 可 变 长 度 输 入 
序列 中 的 信息 。 

解码 器 可 以 使 用 思想 向 量 来 预测 〈 生 成 ) 输出 序列 ， 包 括 聊 天 机 器 人 的 回复 。 

由 于 思想 向 量 表示 的 存在 ， 因 此 输入 序列 和 输出 序列 长 度 不 需要 匹配 。 

思想 向 量 只 能 承载 有 限 的 信息 。 如 果 需要 一 个 思想 向 量 来 编码 更 复杂 的 概念 ， 那么 注意 
力 机 制 可 以 帮助 我 们 有 选择 地 编码 思想 向 量 中 的 重要 内 容 。 




















































































































三 部 分 
进入 现实 世界 ( 现实 中 的 NLP 挑战 ) 





FEES 三 部 分 将 介绍 如 何 通 过 扩展 学 到 的 技能 来 解决 现实 世界 的 问题 。 在 本 部 分 中 我 
们 将 学 习 如 何 提取 日 期 和 姓名 等 信息 , 构建 Twitter 机 器 人 这 样 的 应 用 程序 , 来 
帮助 自助 调度 2017 年 和 2018 年 PyCon US 的 Open Space 活动 。 

最 后 三 章 还 将 讨论 更 环 手 的 NLP 问题 。 我 们 将 学 到 利用 几 种 不 同 的 方法 来 构建 一 个 
聊天 机 器 人 , 包括 基于 机 器 学 习 的 方法 和 不 基于 机 需 学 习 的 方法 。 为 了 创建 复杂 的 对 话 行 
为 ,我 们 将 学 习 如 何 将 上 述 技术 组 合 起 来 。 我们 还 将 了 解 一 些 算法 ,这 些 算法 可 以 处 理 那 
些 不 能 一 次 性 加 载 到 内 存 中 的 大 型 文档 集 。 


















































QD PyCon US 是 在 美国 举办 的 Python 编程 语言 开发 者 社区 最 大 的 年 度 聚 会 ，Open Space 是 PyCon BSH A 
行 组 织 的 交流 会 。 一 一 译 者 注 
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本 章 主 要 内 容 

E iie 

图 命名 实体 识别 

E 数字 信息 提取 

图 词性 标注 和 依存 树 分 析 
图 交 辑 关系 提取 与 知识 库 




















为 了 构建 一 个 全 功能 的 聊天 机 器 人 , 我 们 需要 的 最 后 一 项 技能 是 从 自然 语言 文本 中 提取 信息 





或 者 知识 。 
Nl 命名 实体 与 关系 





我 们 希望 计算 机 能 够 从 文本 中 提取 信息 和 事实 ， 从 而 略微 理解 用 户 所 说 的 内 容 。 例 如 ， 当 用 户 说 
“提醒 我 星期 一 浏览 *##s##x##.org 网 站 。， 我 们 希望 这 句 话 触发 当天 后 下 个 周一 的 日 程 或 者 提醒 的 操作 。 
要 触发 上 述 操作 ， 我 们 需要 知道 “我 ”代表 一 种 特定 类 型 的 命名 实体 (named entity ): A. 

















而 且 ， 聊天 机 恬 人 应 该 知道 它 需 要 将 “我 ” 蔡 换 成 该 月 








H RYH 





有 户 名 ， 达 到 文本 扩展 或 标准 化 的 目 





的 。 我 们 还 需要 聊天 机 器 人 知道 “*******.org” 是 一 个 缩写 的 URL (URL 是 一 个 指 代 特定 事物 








名 称 的 命名 实体 )， 而 且 这 种 特定 类 型 的 命名 实体 的 标准 化 拼写 方式 可 能 是 “http://*******.org” 
“https://*******.org”， 甚 至 可 能 是 “https://www.*******.org”。 同 样 地 ， 我 们 需要 聊天 机 右 人 明 
白 周 一 是 一 周 中 的 某 一 天 ( 这 是 男 一 种 被 称 为 “时 间 ” 的 命名 实体 )， 并 且 能 够 在 日 历 上 找到 它 。 

为 了 使 聊天 机 器 人 能 够 正确 地 响应 这 个 简单 请 求 , 我 们 还 需要 它 能 够 提取 命名 实体 “我 ”和 














指令 “提醒 ”之 间 的 关系 。 聊 天 机 器 人 甚至 需要 识别 句子 的 隐 含 主题 (“你 ,提醒 我 …...”),， 其 

















中 “你 ” 指 的 是 聊天 机 器 人 ， 即 另 一 个 类 型 为 人 的 命名 实体 。 而 且 我 们 需要 “告诉 ”聊天 机 器 人 ， 
日 程 或 者 提醒 是 在 将 来 发 生 的 ， 所 以 它 应 该 找到 下 周一 来 创建 提醒 。 

一 个 典型 的 句子 可 能 包含 几 种 不 同类 型 的 命名 实体 ,例如 地 理 位 置 实体 、 组 织 、 人 物 、 政 治 
实体 、 时 间 (包括 日 期 )、 人 工 制品 、 事 件 和 自然 现象 。 同 时 ， 一 个 句子 也 可 以 包含 多 个 关系 ， 
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即 关 于 句子 中 命名 实体 之 间 关 系 的 事实 。 


11.1.1 知识 库 

除了 从 用 户 语句 对 应 的 文本 中 提取 信息 , 我 们 还 可 以 使 用 信息 提取 技术 来 帮助 聊天 机 器 人 进 
行 自我 训练 ! 如 果 使 用 聊天 机 器 人 在 大 型 语料库 〈 如 维基 百科 ) 上 进行 信息 提取 ,这 个 语料库 就 
可 以 生成 关于 这 个 世界 的 各 种 信息 ,从 而 指导 聊天 机 器 人 后 续 的 行为 和 动作 。 有 一 些 聊天 机 器 人 
通过 知识 库 记 录 提 取 的 所 有 信息 〈 通 过 安排 “家 庭 作业 ” 式 的 离线 阅读 )。 然 后 通过 查询 这 个 知 
识 库 ， 可 以 帮助 我 们 的 聊天 机 器 人 做 出 对 于 这 个 世界 更 加 准确 的 判断 或 推理 。 

聊天 机 器 人 还 可 以 存储 与 当前 用 户 的 “会 话 ”或 者 对 话 相关 的 知识 。 这 些 仅 和 当前 对 话 相 关 
的 知识 称 为 “上 下 文 "。 这 些 上 下 文 知 识 既 可 以 存储 在 聊天 机 器 人 后 台 的 统一 全 局 知识 库 中 ， 又 
可 以 存储 在 单独 的 知识 库 中 。 商 业 聊天 机 器 人 API( 如 IBM 的 Watson 或 亚马逊 的 Lex ), 通常 将 
用 户 的 上 下 文 与 支持 和 其 他 所 有 用 户 聊天 的 全 局 知识 库 分 开 存储 。 

上 下 文 可 以 包含 关于 用 户 、 聊 天 室 或 频道 的 信息 , 或 者 当前 时 刻 的 天 气 和 新 闻 。 基 于 会 话 内 容 ， 上 
下 文 甚至 可 以 包含 聊天 机 器 人 自身 的 状态 变化 。 一 个 “自我 感知 ”的 例子 是 ， 智 能 聊天 机 器 人 应 该 跟踪 
它 已 经 告诉 用 户 的 所 有 事情 的 历史 记录 ， 或 者 它 已 经 向 用 户 提出 的 问题 的 历史 记录 ， 从 而 避免 重复 。 

这 就 是 本 章 的 目标 ， 即 教会 机 器 人 理解 输入 的 内 容 。 我 们 将 机 器 人 产生 的 这 种 理解 结果 放 人 
一 个 为 了 存储 知识 而 设计 的 灵活 数据 结构 中 。 然 后 我 们 的 机 器 人 可 以 利用 这 些 知 识 做 决策 , 从 而 
在 回复 中 引入 更 多 对 现实 世界 的 理解 。 

除了 识别 文本 中 的 数字 和 日 期 等 简单 的 任务 ， 我 们 还 希望 机 器 人 能 够 提取 有 关 现 实 世 界 的 更 通用 
的 信息 。 而 且 我 们 希望 它 能 够 独立 完成 这 项 任务 ， 而 不 是 我 们 自己 把 关于 现实 世界 的 所 有 知识 都 “ 编 
程 ”输入 给 它 。 例 如 ， 我 们 和 希望 机 器 人 能 够 从 自然 语言 文档 中 学 习 ， 例 如 ， 维 基 百 科 中 的 这 个 句子 : 


In 1983, Stanislav Petrov, a lieutenant colonel of the Soviet Air Defense Forces, saved 








































































































the world from nuclear war. 
(1983 年 ， 苏 联防 空 部 队 的 中 校 斯 坦 尼 斯 洛 夫 ， 彼得 罗 夫 ( Stanislav Petrov ) 使 世 
FEIT GRA, ) 


如 果 我 们 在 历史 课 上 读 到 或 听 到 类 似 于 上 面 这 样 一 句 话 后 做 笔记 的 时 候 , 我 们 可 能 会 去 理解 
这 句 话 的 意思 , 同时 在 脑海 中 建立 各 种 概念 或 词 之 间 的 关系 。 我 们 可 能 会 把 这 句 话 简化 成 某 种 知 
识 ， 某 种 “从 句子 中 得 到 的 ”知识 。 我 们 希望 机 器 人 做 同样 的 事情 。 我 们 希望 它 “ 记 录 ” 它 所 学 
到 的 东西 ， 例 如 ， 斯 坦 尼斯 洛 夫 … 彼得 罗 夫 ( Stanislov Petrov ) F/M (lieutenant colonel ) 的 事 
实 或 知识 。 这 种 知识 可 以 存储 在 下 面 这 样 的 数据 结构 中 

("Stanislav Petrov', 'is-a', 'lieutenant colonel') 

这 个 例子 描述 了 两 个 命名 实体 节点 ( 'Stanislav Petrov'#ll'lieutenant coloel' ), 
以 及 在 知识 图 谱 或 知识 库 中 它们 之 间 存 在 的 ('is-a' ) 关系 或 连接 。 当 上 述 关系 用 符合 知识 图 
谱 关 系 描述 格式 (relation description format, RDF ) 标准 的 形式 存储 时 ， 它 被 称 为 RDF 三 元 组 (RDF 
triplet ), 一 般 而 言 , 这 些 RDF 三 元 组 存储 在 XML 文件 中 , 但 它们 也 能 存储 在 可 以 用 (主体 ,， 关系， 
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对 象 ) 形 式 记 录 三 元 组 图 形 关系 的 任何 格式 文件 或 数据 库 中 。 

这 些 三 元 组 的 集合 称 为 知识 图 谱 (knowledge graph )。 上 述 集合 有 时 也 被 语言 学 家 称 为 本 体 
(ontology )“， 因 为 它 存储 了 关于 词 的 结构 化 信息 。 但 当 这 个 图 谱 表示 的 是 关于 世界 的 事实 而 不 仅仅 是 
词 时 , 它 被 称 为 知识 图 谱 或 知识 库 。 图 11-1 就 是 我 们 想 要 从 上 述 句 子 中 提取 出 的 知识 图 谱 的 图 形 化 表示 。 
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图 11-1 有 关 Stanislov 的 知识 图 谱 

图 11-1 上 方 的 is-a 关系 表示 一 个 无 法 直接 从 上 述 描述 Stanislav 的 句子 中 提取 出 的 事实 。 但 是 , 这 
个 lieutenant colonel ( 中 校 ) 是 军衔 (military rank ) 的 事实 可 以 基于 一 个 军事 组 织 (organization ) 成 员 
的 头衔 是 军衔 的 事实 推断 出 来 。 这 种 从 知识 图 谱 中 获取 事实 的 逻辑 操作 称 为 知识 图 谱 推断 (inference )。 
它 也 可 以 被 称 为 知识 库 查 询 ， 就 像 关 系数 据 库 查 询 一 样 。 对 于 像 Stanislav 军衔 的 这 种 特殊 推断 或 查询 ， 
我 们 的 知识 图 谱 必须 包含 关于 军队 和 军衔 的 事实 。 如 果 知 识 库 包含 关于 人 的 头衔 以 及 人 与 职业 (工作 ) 
关系 的 事实 ， 甚 至 可 能 也 会 有 所 帮助 。 也 许 现在 我 们 可 以 看 出 ， 相 比 于 没有 相关 知识 的 知识 库 ， 有 相 
关 知 识 的 知识 库 对 于 机 器 人 理解 上 面 这 句 话 的 帮助 更 大 。 如 果 没 有 这 种 知识 库 ， 那 么 像 上 面 这 样 一 个 
简单 的 句子 中 包含 的 许多 事实 ， 都 将 让 聊天 机 器 人 “ 摸 不 着 头脑 "。 大 家 甚至 可 以 说 ， 对 于 一 个 只 知道 
如 何 根据 随机 分 配 的 主题 对 文档 进行 分 类 的 机 器 人 “， 关 于 职业 等 级 的 问题 将 “超出 它 的 能 力 范围 "。 

这 个 问题 有 多 么 严重 , 也 许 不 是 那么 显而易见 , 但 这 确实 是 一 个 严重 的 问题 。 如 果 我 们 有 过 
与 一 个 不 理解 “which way is up”( 路 在 何方 ) “的 聊天 机 器 人 交谈 经 历 的 话 ， 我 们 就 会 理解 这 个 
问题 的 严重 性 。 人 工 智能 研究 中 最 令 人 生 旦 的 挑战 之 一 就 是 对 常识 知识 图 谱 的 编译 和 高 效 查询 。 
而 这 些 常识 在 我 们 的 日 常 对 话 中 被 视 为 理所当然 知道 的 东西 。 

人 类 其 至 在 获得 语言 技能 之 前 就 开始 获取 很 多 常识 ,我们 不 会 花费 自己 的 童年 时 光 去 撰写 为 
何 每 天 从 日 出 开始 、 并 在 日 落 之 后 睡觉 的 原因 。 我 们 也 不 会 在 维基 百科 中 编辑 为 何 只 能 用 食物 而 
不 是 泥土 或 千石 填 饱 肚子 的 文章 。 这 使 机 器 人 难以 找到 一 个 包含 常识 的 语料库 去 阅读 和 学 习 , 也 
不 存在 包含 常识 的 维基 百科 文章 供 机 器 人 进行 信息 提取 。 而 且 有 些 常 识 完全 是 与 生 俱 来 的 , 它们 
被 硬 编码 到 我 们 的 DNA 中 。 


































































































D 一 般 认 为 ， 本体 更 偏 概念 之 间 的 关系 ， 而 知识 图 谱 则 倾向 于 表达 实体 之 间 的 关系 。 因 此 ， 这 两 者 有 较 大 
的 区 别 。 译 者 注 

D 如 果 忘 了 如 何 随 机 分 配 主题 ， 参 见 第 4 章 。 

@ “which way is up” Æ 2008 年 发 布 的 一 款 单 人 游戏 。 一 一 译 者 注 

D 有 些 硬 编码 的 、 常 识 性 的 知识 库 可 用 于 构建 我 们 的 知识 体系 。 谷歌 学 术 (Google Scholar ) 是 我 们 在 知识 
图 谱 搜 索 领域 的 好 伙伴 。 
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事物 与 人 之 间 存 在 着 各 种 各 样 的 事实 关系 ， 例 如 “是 ……: 类 别 ”( kind-of )、“ 被 用 来 ” 
( is-used-for )、“ 有 一 个 ”( has-a )、“ 因 …… 而 著名 ”( is-famous-for )、“ 出 生 于 ”( was-born )、“ 有 ……: 
经 验 ”( has-profession ), NELL ( Never Ending Language Learning )， 卡 内 基 梅 隆 大 学 的 一 个 永恒 
语言 学 习 的 机 器 人 ， 几 乎 完全 专注 于 提取 有 关 “ 是 …… 类 别 ”(kind-of ) 关系 的 信息 。 

大 多 数 知识 库 会 规范 化 上 述 表 示 关 系 定义 的 字符 串 ， 所 以 “是 …… 类 别 ”( kind-of ) 和 “是 …… 
类 型 ”( type-of ) 这 种 特定 关系 会 被 分 配 一 个 规范 化 的 字符 串 或 ID 来 表示 。 一 些 知识 库 也 会 规范 
化 知识 库 中 表示 对 和 象 的 名 词 。 因 此 ， 可 能 会 给 2-gram“Stanislav Petrov” 分 配 一 个 特定 ID. “Stanislav 
Petrov” 的 同义词 ， 如 “S. Petrov” FI “Lt Col Petrov”， 如 果 NLP 流水 线 认 为 他 们 指 的 是 同一 个 
人 ， 那 么 会 被 分 配 同一 个 ID. 

知识 库 可 用 于 构建 称 为 问答 系统 ( QA 系统 ) 的 实用 型 聊天 机 器 人 。 客 服 聊天 机 器 人 ， 包 括 
大 学 助教 机 器 人 ， 几 乎 完全 依赖 知识 库 来 生成 回复 。 问 答 系 统 非常 适合 帮助 人 们 找到 事实 型 信 
息 ， 从 而 解放 人 类 的 大 脑 去 做 它们 更 擅长 的 事情 , 例如 根据 事实 进行 概括 。 人 类 不 擅长 精确 地 记 
忆 事 实 , 但 善于 发 现 这 些 事实 之 间 的 联系 和 模式 , 后 者 是 机 器 人 尚未 掌握 的 东西 。 我 们 将 在 下 一 
章 中 详细 讨论 问答 系统 机 器 人 。 

































































11.1.2 信息 提取 


到 目前 为 止 , 我 们 已 经 了 解 到 “信息 提取 ”是 将 非 结构 化 文本 转换 为 存储 在 知识 库 或 知识 图 
谱 中 的 结构 化 信息 。 信 息 提取 是 自然 语言 理解 (natural language understanding, NLU ) 研究 领域 
的 一 部 分 ， 尽管 NLU 经 常 被 当 作 自 然 语 言 处 理 (NLP ) 的 同义词 使 用 。 

与 我 们 的 理解 可 能 不 同 ， 在 数据 科学 研究 中 ， 信 息 提取 或 者 NLU 代表 不 同 的 学 习 方式 。 它 
不 仅仅 是 无 监督 学 习 ， 甚 至 “模型 ”( 有 关 世 界 运 行 的 逻辑 ) 本 身 也 可 以 在 没有 人 为 干预 的 情况 
下 获得 。 我 们 不 是 授 “ 机 器 人 ”以 鱼 〈 事 实 )， 而 是 授 “ 机 器 人 ”以 渔 〈 提 取信 息 )。 尽 管 如 此 ， 
机 器 学 习 技 术 经 常用 来 训练 信息 提取 模型 。 




















11.2 正则 模式 


我 们 需要 一 种 模式 匹配 算法 , 该 算法 可 以 识别 与 模式 匹配 的 字符 序列 或 词 序 列 , 以 便 我 们 从 
较 长 的 文本 字符 串 中 “提取 ”它们 。 构 建 这 种 模式 匹配 算法 的 简单 方法 是 在 Python 中 ,使 用 一 
系列 让 /then 语句 在 字符 串 的 逐个 位 置 查找 该 符号 (单词 或 字符 ) 假设 我 们 想 在 语句 开头 找到 一 
些 常 见 的 问候 词 ， 例 如 “Hi”“Hello”“Yo”。 我 们 可 以 按照 代码 清单 11-1 进行 操作 。 

















代码 清单 11-1 硬 编码 在 Python 代码 中 的 模式 


>>> def find_greeting(s): 
™ Return greeting str (Hi, etc) if greeting pattern matches """ 
if s[0] == 'H': 





@ 2016 42, GaTech 公司 的 人 工 智能 助教 。 
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if sg 23] to [as AH Tp yp TAs 
return s[:2] 
elif s[:6] in ['Hello', 'Hello ', 'Hello,', 'Hello!']: 
return s[:5] 
elif s[0] == 'Y': 
if s{1] == 'o' and s[:3] in ['Yo', 'Yo,', "Yo ', 'Yo!']: 
return s[:2] 
return Non 


代码 清单 11-2 展示 了 它 的 运行 效果 。 





代码 清单 11-2 脆弱 的 模式 匹配 示例 





>>> find_greeting('Hi Mr. Turing!') 
"Hi' 

>>> find_greeting('Hello, Rosa.') 
"Hello! 

>>> find_greeting("Yo, what's up?") 
"Yo! 

>>> find greeting ("Hello") 

"Hello! 

>>> print (find_greeting("hello") ) 
None 

>>> print (find_greeting ("HelloWorld") ) 
None 


我 们 可 以 看 到 , 通过 这 种 方式 编写 模式 匹配 算法 十 分 烦琐 。 这 种 方式 甚至 不 像 上 面 示例 看 到 
的 那么 好 。 它 非常 脆弱 , 依赖 字符 串 中 字符 拼写 、 大 小 写 及 位 置 的 精确 表达 。 指 定 所 有 “分 隔 符 ” 
也 非常 环 手 ， 这 些 “ 分 隔 符 ”包括 标点 符号 、 空 白字 符 ， 或 者 要 查找 的 单词 两 边 的 字符 串 的 开头 
和 结尾 符号 (NULL 字符 )。 

大 家 可 能 已 经 想 出 一 种 方法 ,允许 指定 要 查找 的 不 同 单词 或 字符 串 ， 而 无 须 将 其 硬 编码 为 上 
述 Python 表达 式 。 大 家 甚至 可 以 在 单独 的 函数 中 指定 分 隔 符 ， 通 过 分 词 和 迭代 查找 技术 ， 可 以 
在 字符 串 的 任意 位 置 中 找到 待 查 词 ， 但 这 样 做 的 话 工 作 量 会 很 大 。 

幸运 的 是 ， 这 项 工作 早 就 已 经 完成 了 ! 模式 匹配 引擎 已 经 被 集成 到 大 多 数 现代 计算 机 语言 中 ， 
包括 Python。 它 被 称 为 正则 表达 式 (regular expression )。 正 则 表达 式 和 字符 串 插值 格式 化 表达 式 
(Han, "{:05d}".format (42) )， 本 身 就 是 微型 编程 语言 。 这 种 用 于 模式 匹配 的 语言 称 为 正 
则 表达 式 语言 。Python 在 标准 库 包 re 中 有 一 个 正则 表达 式 解 释 器 (编译 器 和 运行 器 )。 因 此 ， 
我 们 将 使 用 它们 而 不 是 深层 般 套 的 Python if 语句 来 定义 上 述 模式 。 


















































11.2.1 正则 表达 式 


正则 表达 式 是 一 种 用 特殊 的 计算 机 语言 编写 的 字符 串 , 可 以 用 于 指定 匹配 算法 。 如 果 同 样 实 
现 上 述 匹配 模式 ， 使 用 正则 表达 式 要 比 编写 Python 代码 更 加 强大 、 灵 活 和 简洁 。 因 此 正则 表达 
式 是 许多 涉及 模式 匹配 的 NLP 问题 首选 的 模式 定义 语言 。 使 用 正则 表达 式 的 NLP 应 用 是 对 原先 
用 于 编译 和 解释 形式 语言 ( 计算 机 语言 ) 的 扩展 。 
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正则 表达 式 定义 有 限 状态 机 或 FSM- 关于 符号 序列 的 “ifthen" 决 策 树 , 例如 代码 清单 11-1 
中 的 find greeting O 函数 。 序 列 中 的 符号 被 逐个 输入 FSM 决策 树 中 。 对 诸如 ASCH 字符 串 
或 一 系列 英语 单词 之 类 的 符号 序列 进行 处 理 的 有 限 状 态 机 称 为 语法 。 它 们 也 被 称 为 形式 语法 ， 以 
便 和 我 们 在 语法 学 校 学 到 的 自然 语言 语法 规则 区 分 开 来 。 

在 计算 机 科学 和 数学 中 ,“ 语 法 ”一 词 指 的 是 一 组 规则 ， 用 于 确定 符号 序列 是 否 是 特定 语 
言 的 合法 成 员 ， 这 些 语言 通常 称 为 计算 机 语言 或 形式 语言 。 计 算 机 语言 或 形式 语言 是 与 定义 
该 语言 的 形式 语法 匹配 的 所 有 语句 集 。 这 是 一 种 循环 定义 ， 但 这 有 时 就 是 数学 的 工作 方式 。 
如 果 大 家 不 熟悉 像 =' .\ *' 和 上 ra-z' 这 样 的 基本 正则 表达 式 语 法 和 符号 ， 可 以 根据 需要 查 
看 附录 B。 

































































11.2.2 ”把 信息 提取 当 作 机 器 学 习 里 的 特征 提取 任务 


我 们 回 到 第 1 章 , 那里 第 一 次 提 到 了 正则 表达 式 。 但 是 , 大 家 是 否 从 第 1 章 末 尾 的 基于 语法 
的 NLP 方法 转向 了 支持 基于 机 融 学 习 和 数据 驱动 的 方法 ? 为 什么 要 再 次 使 用 硬 编 码 ( 手动 编写 ) 
的 正则 表达 式 和 模式 ? 这 是 因为 基于 统计 或 数据 驱动 的 NLP 方法 存在 局 限 性 。 

我 们 希望 机 器 学 习 流 水 线 能 够 执行 一 些 基 本 操作 ， 例 如 回答 逻辑 问题 ， 或 根据 NLP 指令 执 
行 诸如 安排 会 议 日 程 等 操作 。 但 这 些 场 景 下 机 器 学 习 往往 达 不 到 预期 效果 。 我 们 很 少 有 标注 好 的 
训练 集 ， 能 够 涵盖 人 们 用 自然 语言 可 能 提出 的 所 有 问题 的 答案 。 另 外 , 正如 我 们 在 后 面 将 要 看 到 
的 ,我 们 可 以 定义 一 组 紧凑 的 条 件 检查 ( 正则 表达 式 ) 以 从 自然 语言 字符 串 中 提取 关键 的 信息 。 
这 种 方法 可 以 解决 很 大 一 部 分 问题 。 

模式 匹配 ( 和 正则 表达 式 ) 仍然 是 最 好 的 信息 提取 方法 。 即 使 使 用 机 器 学 习 方法 进行 自然 语 
言 处 理 , 我 们 也 需要 完成 特征 工程 。 我 们 需要 创建 词 袋 模型 或 词 伐 和 表示， 从 而 将 自然 语言 文本 
中 近乎 无 限 可 能 的 语义 压缩 到 计算 机 可 以 轻松 处 理 的 向 量 中 。 信息 提取 只 是 从 非 结构 化 自然 语言 
数据 中 提取 机 顺 学 习 特 征 的 另 一 种 形式 ， 例 如 创建 单词 模型 或 在 该 词 袋 模 型 上 进行 PCA。 这 些 
模式 和 特征 也 同样 用 于 最 先进 的 自然 语言 机 顺 学 习 流 水 线 ， 例 如 谷歌 智能 助理 、Siri 、 亚 马 逊 的 
Alexa 和 其 他 最 好 的 聊天 机 器 人 。 

言 息 提取 用 于 找到 那些 我 们 希望 聊天 机 器 人 拥有 的 “在 嘴 边 却 又 说 不 出 来 ”的 语句 和 信息 。 
我 们 可 以 事先 通过 信息 提取 来 填充 知识 库 的 内 容 。 或 者 ， 当 询问 聊天 机 器 人 问题 或 查询 搜索 引 
擎 时 ,信息 提取 可 以 用 来 按 需 查找 语句 和 信息 。 当 提前 构建 知识 库 时 ， 可 以 优化 数据 结构 以 便 
在 更 大 的 知识 领域 内 更 快 地 进行 查询 。 预 构建 知识 库 使 聊天 机 器 人 能 够 快速 响应 有 关 更 广泛 信 
息 的 问题 。 如 果 信 息 检索 是 随 着 查询 聊天 机 器 人 实时 进行 的 ， 这 一 般 被 称 为 “搜索 ”"。Google 
和 其 他 搜索 引擎 结合 了 这 两 种 技术 ， 如果 查询 知识 图 谱 ( 知识 库 ) 找 不 到 需要 的 信息 ， 则 回 退 
到 文本 搜索 。 我们 在 学 校 学 到 的 许多 自然 语言 语法 规则 都 可 以 使 用 形式 语法 进行 编码 ,该 形式 
语法 由 在 对 词 或 者 代表 词性 的 符号 进行 操作 。 英 语 可 以 被 认为 是 构成 上 述 语言 的 单词 和 语法 规 
则 。 或 者 我 们 可 以 将 其 视 为 可 以 说 出 的 所 有 可 能 语句 的 集合 ,这 些 语句 被 英语 使 用 者 认为 是 有 
效 的 。 
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这 带 来 了 形式 语法 和 有 限 状 态 机 的 男 一 个 特性 ， 它 将 在 NLP 中 派 上 用 场 。 计 算 机 可 以 通过 
两 种 方式 使 用 形式 语法 : 

m 识别 与 该 语法 匹配 的 字符 串 ; 

m 通过 该 语法 生成 新 的 符号 序列 。 

我 们 不 仅 可 以 使 用 模式 ( 正则 表达 式 ) 从 自然 语言 中 提取 信息 ,还 可 以 在 聊天 机 器 人 中 使 用 
这 些 模式 ， 从 而 让 聊天 机 器 人 “说 出 ”与 该 模式 匹配 的 内 容 ! 下 面 我 们 将 向 大 家 展示 如 何 使 用 名 
为 rstr 的 软件 包 来 完成 一 些 信息 提取 模式 。 

这 些 用 于 模式 匹配 的 形式 语法 和 有 限 状态 机 方法 还 有 一 些 很 酷 的 功能 。 一 个 真正 的 有 限 状 态 
机 可 以 保证 始终 在 有 限时 间 内 运行 (停止 ) 它 一 定 会 告诉 我 们 是 否 在 字符 串 中 找到 了 匹配 项 。 
它 永远 不 会 陷入 死 循环 …… 只 要 我 们 不 使 用 正则 表达 式 引 擎 的 某 些 高 级 功能 , 这 些 功 能 允许 我 们 
“ 作 次 ”并 将 死 循环 添加 到 我 们 的 有 限 状 态 机 中 。 

因此 ,我 们 将 使 用 不 包括 “后 向 环视 ”或 “前 向 环视 ”这 类 作弊 方式 的 正则 表达 式 。 我 们 将 
确保 我 们 的 正则 表达 式 匹 配 右 会 处 理 每 个 字符 并 且 只 有 当 它 匹配 时 才 移 动 到 下 一 个 字符 一 一 有 
点 儿 像 一 个 严格 的 列车 管理 员 沿 着 座位 检查 车 票 。 如 果 乘 客 没有 车 票 , 列车 管理 员 会 停 下 并 宣布 
发 现 了 问题 , 有 人 没有 车 票 ， 他 不 再 继续 向 前 查 或 者 向 后 查 ， 直 到 他 解决 了 眼前 的 问题 。 对 列车 
乘客 或 严格 的 正则 表达 式 而 言 ， 没 有 “ 回 退 ” 或 “ 跳 过 ”一 说 。 
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如 下 一 些 关键 的 定量 信息 值得 “手写 ”正则 表达 式 : 

m GPS 位 置 ; 

m 日 期 ; 

| 价格 ; 

E 数字 。 

和 上 述 可 以 通过 正则 表达 式 轻 松 捕 获 的 信息 相 比 , 其 他 一 些 重要 的 自然 语言 信息 需要 更 复 2 
的 模式 : 

m “问题 触发 词 ; 

m 问题 目标 词 ; 

E 命名 实体 。 
































ae 











11.3.1 提取 GPS 位 置 


GPS 位 置 是 我 们 希望 通过 正则 表达 式 从 文本 中 提取 的 各 种 数值 类 数据 的 典型 代表 。GPS 位 置 
具有 成 对 的 经 度 和 纬度 数值 。 它 们 有 时 还 包括 第 三 个 数值 ， 如 高 度 或 海拔 高 度 , 但 我 们 暂时 忽略 














D 详 见 标题 为 “leapfrogdevelopment /rstr 一 Bitbucket” 的 网 页 。 
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它 。 我 们 只 提取 十 进 制 的 经 度 /纬度 对 , 用 度数 表示 。 这 种 模式 适用 于 许多 谷歌 地 图 的 URL 地 址 。 
虽然 严格 说 URL 不 是 自然 语言 ， 但 它们 通常 是 非 结 构 化 文本 数据 的 一 部 分 ， 并 且 我 们 希望 提取 
这 种 信息 ， 从 而 让 我 们 的 聊天 机 器 人 能 够 像 了 解 事物 一 样 了 解 位 置信 息 。 

我 们 使 用 前 面 例子 中 的 十 进 制 数字 模式 , 但 增加 更 多 约束 ,确保 该 值 在 纬度 (490° ) 和 经 度 
(=180° ) 的 有 效 范围 内 。 最 北 到 北极 (+90° )， 最 南 到 南极 〈-90” )。 如 果 我 们 从 英格兰 格林 尼 
治 的 东经 180”( 经 度 +180”) 起 航 ， 我 们 将 到 达 国 际 日 期 变更 线 ， 那 里 也 是 格林 尼 治 的 西 经 180° 
( 经 度 -180”)。 代 码 清单 11-3 中 给 出 的 是 具体 代码 。 
































代码 清单 11-3 GPS 坐标 的 正则 表达 式 


>>> import re 





>>> Tat = or! ([-]-2 0-9] 2 (0-9) [e] [0-9] £2,.10},)* 
>>> lon = r'([-]?1?[0-9]?[0-9][.] [0-9] {2,10})' 
>>> sep = r'[,/ ]{1,3}' 


>>> re_gps = re.compile(lat + sep + lon) 


>>> re_gps.findall('http://...maps/@34.0551066,-118.2496763...') 
[ (34.0551066, -118.2496763) ] 


>>> re_gps.findall ("Zig Zag Cafe is at 45.344, -121.9431 on my GPS.") 
[('45.3440', '-121.9431"')] 


数值 类 数据 很 容易 提取 ， 特 别 是 当 数 字 是 可 机 读 字 符 串 的 一 部 分 的 时 候 。URL 和 其 他 可 机 
读 字符 串 以 可 推测 的 顺序 、 格 式 或 单位 放置 纬度 和 经 度 等 数字 , 为 提取 提供 了 方便 。 上 述 模式 还 
可 以 处 理 一 些 超出 真实 世界 的 纬度 和 经 度 值 ， 它 可 以 较 好 地 处 理 我 们 从 地 图 Web 应 用 程序 (如 
OpenMapStreet ) 中 复制 的 大 部 分 URL。 

但 日 期 怎么 处 理 ? 正则 表达 式 适 用 于 日 期 吗 ? ”如果 我 们 希望 我 们 的 日 期 提取 器 能 够 在 欧 
洲 和 美国 使 用 ， 而 这 两 个 地 方 的 日 /月 的 顺序 经 常 颠 倒 应 该 怎么 办 ? 





























11.3.2 ”提取 日 期 


提取 日 期 比 提取 GPS 坐标 要 难得 多 。 日 期 更 接近 自然 语言 ， 可 以 通过 不 同 的 方言 表达 相似 
的 事物 。 在 美国 , 2017 年 圣诞 节 的 表示 是 “12/25/17”。 而 在 欧洲 , 同一 个 日 子 却 表 示 为 “2S/12/17”。 
我 们 可 以 检查 我 们 的 用 户 区 域 设 置 , 并 假设 在 同一 个 区 域 ， 日 期 表示 方式 是 一 样 的 。 但 这 种 假设 
可 能 在 实际 中 是 不 成 立 的 。 

因此 ， 大 多 数 日 期 和 时 间 提 取 需 尝试 适 配 上 面 两 种 日 /月 的 表示 顺序 ， 并 检查 以 确保 是 有 效 
的 日 期 。 这 也 是 当 我 们 看 到 这 样 的 日 期 时 大 脑 的 工作 方式 。 即 使 你 是 美国 英语 使 用 者 ， 而 且 圣 诞 
节 期 间 你 在 布鲁塞尔 ， 你 也 能 认 出 “25/12/17” 是 一 个 假期 ， 因 为 一 年 只 有 12 个 月 。 

这 种 在 计算 机 编程 中 适用 的 “鸭子 类 型 ”( duck-typing ) 方法 也 适用 于 自然 语言 。 如 果 它 看 
起 来 像 一 只 鸭子 并 且 表 现 得 像 一 只 鸭子 , 那么 它 可 能 就 是 一 只 鸭子 。 如 果 它 看 起 来 像 日 期 并 且 表 
现 得 像 日 期 ， 那 么 它 可 能 就 是 日 期 。 我 们 将 在 其 他 自然 语言 处 理 任 务 中 也 使 用 这 种 “ 先 斩 后 奏 ” 
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的 方法 。 我 们 将 尝试 一 系列 方法 并 选择 结果 正确 的 方法 。 我 们 将 尝试 使 用 提取 带 或 生成 恬 ， 然 后 
在 其 上 运行 验证 器 来 判断 它 是 否 合理 。 

对 聊天 机 器 人 来 说 , 这 是 一 种 特别 强大 的 方法 ， 人 允许 我 们 组 合 多 个 自然 语言 生成 器 的 最 佳 结 
果 。 在 第 10 章 中 ,我 们 使 用 LSTM 生成 了 一 些 聊 天 机 器 人 的 回复 。 为 了 改善 用 户 体验 ， 我 们 可 
以 生成 大 量 回复 并 选择 具备 最 佳 拼写 、 语 法 和 情感 的 回复 ， 参 见 代 码 清单 11-4。 我 们 将 在 第 12 
章 中 详细 讨论 这 一 点 。 


代码 清单 11-4 ”美国 日 期 的 正则 表达 式 





>>> us = r'((([01]?\d) [-/] ([0123] ?\d)) ([-/] ([0123]\d) \d\d) ?)' 
>>> mdy = re.findall(us, 'Santa came 12/25/2017. An elf appeared 12/12."') 
>>> mdy 


[('12/25/2017', 112/25", '12', '25', '/2017', '20'), 
aD), Tazze raan Mar. AT PG 
通过 把 月 、 日 和 年 转换 为 整数 并 使 用 有 意义 的 名 称 标注 这 些 数 字 信息 , 我 们 可 以 使 用 列表 解 
析 式 (list comprehension ) 为 提取 的 数据 提供 结构 化 表示 ， 如 代码 清单 11-5 所 示 。 


代码 清单 11-5 ”结构 化 提取 的 日 期 


>>> dates = [{'mdy': x[0], 'my': x[1], 'm': int(x[2]), 'd': int(x[3]), 

KES "y': int(x[4].lstrip('/') or 0), 'c': int(x[5] or 0)} for x in mdy] 
>>> dates 
(mady L 2/25/2007" ;AMY Sho ists TOs. Shade 255. Vy QOL TEs 20 fy 

人 

即使 对 于 这 些 简单 的 日 期 也 不 可 能 设计 一 个 可 以 处 理 “12/12” 这 个 日 期 中 存在 的 歧义 的 
正则 表达 式 。 日 期 表示 中 往往 存在 含糊 不 清 的 情况 , 只 有 人 可 以 通过 使 用 圣诞 节 相 关 的 知识 或 作 
者 的 意图 来 猜测 。 例 如 ,“12/12” 可 能 表示 : 

m 2017 年 12 月 12 日 一 一 基于 指 代 消 解 估 计 得 到 的 年 份 的 月 /日 格式 ; 

m 2018 年 12 月 12 日 一 一 出 版 时 当年 年 份 的 月 /日 格式 ; 

m 2012 年 12 月 一 一 2012 年 的 月 /年 格式 。 

因为 月 /日 在 美国 日 期 和 我 们 的 正则 表达 式 中 都 出 现在 年 份 的 前 面 ， 所 以 “12/12” 被 认为 是 

某 个 未 知 年 份 的 12 月 12 日 。 我 们 可 以 使 用 在 内 存 的 结构 化 数据 的 上 下 文中 最 近 读 取 到 的 年 份 来 

填充 任何 缺失 的 数字 字段 ， 如 代码 清单 11-6 所 示 。 


代码 清单 11-6 ”基本 的 上 下 文 管理 
>>> for i, d in enumerate(dates): 
for k, v in d.items(): 这 段 代 码 可 以 正常 运行 是 因为 字 
if not v: 典 和 列表 都 是 可 变 的 数据 类 型 
d[k] = dates[max(i - 1, 0)][k] 




















@ Imran Q. Sayed 在 斯 坦 福 大 学 CS224N 课程 中 关于 指 代 消解 的 议题 (参见 下 载 资源 中 的 project_report.pdf )。 
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>>> dates 


i mdy e "12/25/2017. “mye LO/ 254-2 Sm To Udi Zo Ky e202 TOL 20}; 
{tidy ZA my VL Wm Ds ana OL > es 2.04) 

>>> from datetime import date 

>>> datetimes = [date(d['y'], d['m'], d['d']) for d in dates] 


>>> datetimes 
[datetime.date (2017, 12, 25), datetime.date(2017, 12, 12)] 


上 面 是 从 自然 语言 文本 中 提取 日 期 信息 的 基本 但 相当 鲁 棒 的 方法 。 如 果 将 该 方法 用 作 生 产 系 
统 的 日 期 提取 器 ， 还 需要 做 的 主要 工作 是 添加 一 些 适 用 于 我 们 应 用 程序 的 异常 捕获 和 上 下 文 管 
理 。 如 果 你 能 发 起 拉 取 请 求 (pull request, PR) 将 上 述 功 能 添加 到 nlpia 包 ， 我 相信 读者 会 很 
感激 。 如 果 你 经 常 添加 一 些 提取 器 ， 那 么 你 就 是 英雄 。 

我 们 可 以 通过 一 些 硬 编码 逻辑 来 处 理 极端 情况 以 及 月 甚至 日 的 自然 语言 名 称 。 但 是 再 复杂 的 
逻辑 也 无 法 处 理 “12/11” 中 存在 的 日 期 歧义 ， 它 可 能 是 : 

E 在 某 个 你 看 到 或 听 到 过 年 份 的 12 月 11 A; 

加 11 月 12 日 ， 如 果 在 伦敦 或 塔 斯 马 尼 亚 州 的 朗 塞 斯 顿 ( 一块 联邦 领土 ) 听 到 的 话 ; 

m 2011 年 12 月 ， 如 果 在 美国 报纸 上 看 到 的 话 ; 

m 2012 年 11 月 ， 如 果 在 欧盟 报纸 上 看 到 的 话 。 

即使 是 人 脑 也 无 法 解决 一 些 自然 语言 的 歧义 问题 。 但 是 , 我 们 需要 确保 我 们 的 日 期 提取 器 可 
以 通过 在 正则 表达 式 中 颠倒 月 和 日 来 处 理 欧洲 日 /月 顺序 的 日 期 。 具 体 做 法 参见 代码 清单 11-7。 






























































代码 清单 11-7 ”欧洲 日 期 的 正则 表达 式 





>>> eu = r'((([0123]?\d) [-/] ([01] ?\d)) ([-/] ([0123]\d) ?\d\d) ?)' 
>>> dmy = re.findall(eu, 'Alan Mathison Turing OBE FRS (23/6/1912-7/6/1954) \ 
are was an English computer scientist.') 
>>> dmy 
CO 1912" 5-2 "23764 5. A238 VOLp LIE 5. "194 ) 

(TAOSL OTA MITAONS ET VON gp NP 195415. MESTE] 
>>> dmy = re.findall(eu, 'Alan Mathison Turing OBE FRS (23/6/12-7/6/54) \ 
was an English computer scientist. ') 





>>> dmy 


[('23/6/12', '23/6', '23', "6", '/12', '"), 
CMTS 6/54) OS NT gs Oss, Tf Sat ge I EY] 


正则 表达 式 能 够 正确 地 从 维基 百科 的 摘要 页 中 提取 图 灵 的 出 生日 期 和 去 世 日 期 。 但 其 实 我 们 
在 上 面 的 例子 中 作 浆 了 ,在 测试 上 例 维基 百科 句子 的 正则 表达 式 之 前 ， 我 们 将 月 份 “June” 转 换 
成 了 数字 6。 所 以 这 不 是 一 个 真实 的 例子 。 如 果 没 有 指定 世纪 ， 我 们 在 处 理 年 份 的 时 候 仍然 会 有 
歧义 。54 年 是 指 1954 年 还 是 2054 年 呢 ? 我 们 希望 聊天 机 器 人 能 够 从 没有 经 过 人 工 预 处 理 的 维 
基 百 科 文 章 中 提取 日 期 ,从 而 可 以 研读 著名 人 物 信息 并 学 习 导 入 日 期 。 如 果 和 希望 我 们 的 正则 表达 
式 能 够 处 理 更 自然 的 像 维基 百科 文章 中 出 现 的 日 期 信息 , 我 们 需要 在 日 期 提取 正则 表达 式 中 添加 
诸如 “June”( 及 其 其 所 有 缩写 ) 之 类 的 单词 。 

我 们 不 需要 任何 特殊 的 符号 来 表示 词组 ( 按 顺 序 组 合 在 一 起 的 字符 )。 完 全 按照 这 些 词 
组 在 输入 中 的 拼写 顺序 ， 我 们 可 以 直接 把 它们 写 到 正则 表达 式 中 ， 包 括 大 小 写 。 我 们 所 要 
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做 的 就 是 在 正则 表达 式 中 用 一 个 OR 符号 〈|) 隔 开 这 些 词组 。 而 且 我 们 需要 确保 这 个 正则 
表达 式 既 可 以 处 理 美 国 月 /日 的 日 期 格式 ， 也 可 以 处 理 欧盟 的 日 期 格式 。 我 们 将 这 两 个 等 同 
的 日 期 “拼写 ”添加 到 正则 表达 式 中 ， 并 在 它们 之 间 使 用 一 个 大 大 的 OR (|) 作为 正则 表 
达 式 中 决策 树 的 分 支 。 

我 们 使 用 一 些 命名 分 组 来 帮助 我 们 识别 像 1984 年 的 “84” 和 2008 年 的 “08” 这 样 的 年 份 。 
我 们 尝试 更 准确 地 表示 想 要 匹配 的 4 位 数 年 份 , 从 过 去 的 元 年 0 年 "到 未 来 的 2399 年 。 详 见 代码 
清单 11-8。 


代码 清单 11-8 识别 年 份 


>>> yr_19xx = ( 
c'\b(?P<yr_19xx>' + 
"|'.join('{}'.format(i) for i in range(30, 100)) + 
r' ) \b' 
} 两 位 数 表示 的 年 份 ， 


>>> yr 20xx = ( 30-99 = 1930-1999 
c'\b(?P<yr_20xx>' + 























"|".join('{:02d}'.format(i) for i in range(10)) + '"|' + 
"[".join("{}".format (i) for i in range (10, 30)) + 
r')\b' 一 位 或 者 两 位 数 表示 的 年 份 ， 3 位 数 或 者 4 位 数 表示 的 年 份 的 前 
ais ) 01-30 = 2001-2030 几 位 数字 , 如 “123 A.D.” 中 的 “1” 
>>> yr_cent = r'\b(?P<yr cent>' + '|'.join( 或 者 “2018” 中 的 “20” 
a '{}'.format (i) for i in range(1, 40)) + r')' 
>>> YLT_CCXX = r'(?P<yr_ccxx>' + '|'.join( 
peste "{:02d}'.format(i) for i in range(0, 100)) + r')\b' 
>>> YLT_XXXX = r'\b(?P<yr_xxxx>(' + yr cent + ')(' + yr ccxx + r'))\b' 
iit aie 3 位 数 或 者 4 位 数 表示 的 年 份 的 后 
Feni r'\b(?P<yr>! + pk “ ” ugan 
Ni PER 两 位 数字 , 如 “123 A.D.” PHY “23 
yr_19xx + '|' + yr_20xx + '|' + yr_xxxx + 、 k ee 
r')\b! 或 者 “2018” 中 的 “18 


>>> ee = list (re.finditer ( 

eee yr, "0, 2000, 01, '08, 99, 1984, 2030/1970 85 47 *66")) 

>>> full_years = [g['yr'] for g in groups] 

>>> full_years 

[720007 2 OLN hOB 99; (V1LOBAT 203808, TLIO, BON PAI TE6+ | 

仅仅 是 使 用 正则 表达 式 中 一 些 简 单 的 年 份 规 则 , 还 没有 用 到 Python, 工作 量 就 很 大 了 。 不 过 
不 用 担心 ， 软 件 包 可 用 于 识别 常见 的 日 期 格式 。 它 们 更 精确 〈 更 少 的 误 匹 配 )、 更 通用 (更 少 的 
漏 匹 配 )。 所 以 我 们 不 需要 自己 编写 复杂 的 正则 表达 式 。 上 面 的 示例 仅 为 我 们 提供 一 种 可 以 遵循 
的 模式 ， 以 防 我 们 将 来 需要 使 用 正则 表达 式 提取 特定 类 型 的 数字 。 在 货币 数值 和 IP 地 址 提取 的 
例子 中 ， 带 有 命名 分 组 的 更 复杂 的 正则 表达 式 可 能 会 派 上 用 场 。 

在 维基 百科 日 期 中 ， 我 们 在 提取 图 灵 生 日 时 添加 月 份 名 称 对 应 的 模式 “June” 或 者 “Jun ， 
来 完成 正则 表达 式 以 提取 日 期 ， 如 代码 清单 11-9 所 示 。 




















D 详 见 标题 为 “Year zero” 的 网 页 。 
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代码 清单 11-9 用 正则 表达 式 识 别 月 份 名 称 


>>> mon_words = 'January February March April May June July ' \ 
aren "August September October November December' 
>>> mon = (r'\b(' + '|'.join('{}I{}I{}l{}I{:02d}'.format ( 
Ee my. mletie mita to Ly ae I Eor im ain 
= enumerate (mon_words.split())) + 
r')\b') 


>>> re.findall(mon, 'January has 31 days, February the 2nd month 
= of 12, has 28, except in a Leap Year.') 
['January', 'February', '12'] 


大 家 知道 如 何 将 这 些 正 则 表达 式 组 合成 一 个 可 以 处 理 欧 盟 和 美国 日 期 格式 的 大 型 表达 式 
吗 ? 一 个 难点 是 我 们 不 能 为 分 组 ( 正则 表达 式 中 的 括号 内 的 部 分 ) 复 用 相同 的 名 称 。 所 以 我 们 不 
能 在 美国 和 欧盟 对 应 的 月 份 和 年 份 的 命名 正则 表达 式 之 间 使 用 OR。 此 外 ， 表 达 式 中 需要 包含 日 、 
月 和 年 之 间 任 意 分 隔 符 的 模式 。 

代码 清单 11-10 中 给 出 的 是 一 个 满足 上 述 需求 的 例子 。 


代码 清单 11-10 ”组 合 信息 提取 正则 表达 式 





>>> day = r'|/'.join('{:02d}|{}'.format(i, i) for i in range(1l, 32)) 

>>> eu = (r'\b(' + day + r')\b[-,/ ]{0,2}\b(" + 

ieee mon + r')\b[-,/ ]{0,2}\b(' + yr.replace('<yr', '<eu_yr') + r')\b') 
>>> us = (r'\b(' + mon + r')\b[-,/ ]{0,2}\b(' + 


Me day + r')\b[-,/ ]{0,2}\b(' + yr.replace('<yr', '<us_yr') + r')\b') 
>>> date_pattern = r'\b(' + eu + '|' + us + r')\b! 


>>> list (re.finditer(date_pattern, '31 Oct, 1970 25/12/2017')) 
[<_sre.SRE_ Match object; span=(0, 12), match='31 Oct, 1970'>, 
<_sre.SRE Match object; span=(13, 23), match='25/12/2017'>] 


最 后 ， 我 们 需要 验证 提取 的 日 期 ， 看 看 这 个 日 期 是 否 可 以 转换 为 有 效 的 Python datetime 
对 象 ， 代 码 如 代码 清单 11-11 所 示 。 


代码 清单 11-11 验证 日 期 





>>> import datetime 
>>> dates = [] 
>>> for g in groups: 
month_num = (g['us_mon'] or g['eu_mon']).strip() 
try: 
month_num = int (month num) 
except ValueError: 
month_num = [w[:len(month_num) ] 
for w in mon_words].index(month_num) + 1 
date = datetime.date ( 
int(g['us_yr'] or g['eu_yr']), 
month_num, 
int(g['us_day'] or g['eu_day'])) 
dates.append (date) 
>>> dates 
{[datetime.date (1970, 10, 31), datetime.date(2017, 12, 25)] 
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我 们 的 日 期 提取 器 看 起 来 运行 正常 ， 至 少 在 几 个 简单 的 、 无 层 义 的 日 期 上 是 这 样 。 思 考 一 下 ， 
像 Python-dateutil 和 datefinder 这 样 的 软件 包 是 如 何 处 理 歧义 和 像 “今天 ”和 “下 周一 ” 
这 样 更 接近 于 “自然 ”语言 的 日 期 的 。 如 果 你 认为 做 得 可 以 比 这 些 软件 包 更 好 ， 请 给 他 们 发 送 一 
个 拉 取 请 求 ! 

如 果 我 们 只 想 要 一 个 最 先进 的 日 期 提取 器 ， 基 于 统计 ( 机 器 学 习 ) 的 方法 将 能 够 更 快 
地 满足 需求 。 谷 歌 的 Stanford Core NLP SUTime 库 和 dateutil.parser.parse 是 目前 
最 好 的 。 
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到 目前 为 止 ， 我 们 只 关注 提取 环 手 的 名 词 实例 ， 如 日 期 和 GPS 经 纬度 ， 而 且 我 们 主要 使 用 
数字 模式 来 进行 提取 。 现 在 是 时 候 处 理 从 自然 语言 中 提取 知识 这 个 难题 了 。 

我 们 希望 机 器 人 通过 阅读 维基 百科 等 知识 百科 全 书 来 了 解 有 关 世 界 的 知识 , 我 们 还 希望 机 带 
人 能 够 将 这 些 日 期 和 GPS 坐标 与 其 阅读 到 的 实体 联系 起 来 。 

你 的 大 脑 从 维基 百科 的 这 个 句子 中 提取 了 哪些 知识 ? 


























On March 15, 1554, Desoto wrote in his journal that the Pascagoula people ranged as 
far north as the confluence of the Leaf and Chickasawhay rivers at 30.4, —88. 5. 

(1554 年 3 月 15 日 , 迪 索 托 在 他 的 日 记 中 写 道 ， 帕 斯 卡 古 拉 人 向 北 到 达 了 位 于 (30.4， 
-88.5) 的 利夫 河和 奇 克 索 韦 河 的 交汇 处 。) 


我 们 可 以 将 提取 到 的 日 期 和 GPS 坐标 , 以 及 Desoto, Pascagoula 和 两 条 不 知道 怎么 读 的 河流 
联系 起 来 。 我 们 希望 机 器 人 ( 以 及 我 们 的 大 脑 ) 能 够 将 这 些 知识 与 更 多 知识 关联 起 来 ， 例 如 ， 
Desoto 是 一 个 西班牙 征服 者 , 而 Pascagoula 人 是 一 个 和 平 的 美洲 原 住民 部 落 。 而 且 我 们 希望 日 期 
和 位 置 与 正确 的 “事物 ”关联 : Desoto 以 及 两 条 河流 的 交汇 点 。 

这 是 大 多 数 人 在 听 到 自然 语言 理解 这 个 术语 时 所 想到 的 。 要 理解 一 条 语句 ， 我 们 需要 能 够 从 中 
提取 关键 信息 并 将 其 与 相关 知识 关联 。 对 于 机 器 ， 我 们 将 该 知识 存储 在 知识 图 谱 中 ， 这 个 知识 图 谱 
也 称 为 知识 库 。 知 识 图 谱 的 边 是 事物 之 间 的 关联 ， 知 识 图 谱 的 节点 是 从 语料库 中 提取 的 名 词 或 对 象 。 

我 们 用 于 提取 上 述 人 物 关 系 〈 或 事物 关系 ) 的 模式 是 一 种 类 似 于 主 谓 宾 (SUBJECTVERB- 
OBJECT ) 的 模式 。 要 识别 这 些 模式 ， 我 们 需要 使 用 NLP 流水 线 来 识别 句子 中 每 个 词 的 词性 。 


























11.4.1 词性 标注 


词性 (POS ) 标注 可 以 使 用 语言 模型 来 完成 ， 这 个 语言 模型 包含 词 及 其 所 有 可 能 词性 组 成 的 
字典 。 然 后 , 该 模型 可 以 使 用 已 经 正确 标注 好 词性 的 句子 进行 训练 ， 从 而 识别 由 该 字典 中 其 他 词 
组 成 的 新 句子 中 所 有 词 的 词性 。NLTK 和 spaCy 都 具备 词性 标注 功能 。 我 们 在 这 里 使 用 spaCy, 
因为 它 更 快 、 更 精确 。 具 体 做 法 参见 代码 清单 11-12。 
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代码 清单 11-12 ”使 用 spaCy 进行 词性 标注 





>>> import spacy 
>>> en model = spacy.load('en core web md') 
>>> sentence = ("In 1541 Desoto wrote in his journal that the Pascagoula peop 
le "+ 
"ranged as far north as the confluence of the Leaf and Chickasawhay r 
ivers at 30.4, -88.5.") 
>>> parsed_sent = en_model (sentence) spaCy 没有 识别 出 纬度 /经 度 对 
30.4) 





g 





>>> parsed_sent.ents 的 经 度 
(1541, Desoto, Pascagoula, Leaf, Chickasawhay, 


>>> ' '.join(['{}_{}'.format (tok, tok.tag_) for tok in parsed_sent]) 

'In IN 1541 CD Desoto NNP wrote VBD in_IN his PRPS journal NN that_IN the_DT 
Pascagoula_NNP people NNS 

ranged_VBD as_RB far_RB north_RB as_IN the_DT confluence_NN of_IN the_DT Lea 
f NNP and CC Chickasawhay_NNP 

rivers VBZ at_IN 30.4 CD ,_, -88.5 NFP ._.' <i 














spaCy 使 用 了 “OntoNotes 5” 
词性 标注 标签 体系 
因此 ， 要 构建 我 们 的 知识 图 谱 ， 我 们 需要 确定 哪些 对 象 ( 名词 短语 ) 应 该 配对 。 我 们 想 把 日 期 
“1554 年 3 月 15 日 ”与 命名 实体 Desoto 配对 。 然 后 ， 我 们 可 以 解析 这 两 个 字符 串 〈 名 词 短 语 ) 以 指 
向 我 们 知识 库 中 的 对 象 。 这 里 可 以 将 1554 年 3 月 15 日 转换 为 规范 化 表示 的 datetime .date WR. 
spaCy 解析 的 句子 还 包含 能 套 字典 表示 的 依存 树 。 同 时 ，spPacy.qisplacy 可 以 生成 可 缩 
放 的 矢量 图 形 SVG 字符 串 (或 完整 的 HTML 页 面 )， 然 后 在 浏览 器 中 以 图 像 的 方式 查看 。 上 述 
可 视 化 方式 可 帮助 我 们 找到 通过 依存 树 创建 用 于 关系 提取 的 标签 模式 的 方法 。 具 体 做 法 参见 代码 
清单 11-13。 











代码 清单 11-13 可视化 依存 树 


>>> from spacy.displacy import render 
>>> sentence = "In 1541 Desoto wrote in his journal about the Pascagoula." 
>>> parsed_sent = en_model (sentence) 
>>> with open('pascagoula.html', 'w') as f: 
f.write (render (docs=parsed_sent, page=True, 
= options=dict (compact=True) ) ) 


上 述 短 句 的 依存 树 表 明 ， 名 词 短 语 “the Pascagoula” EIE “Desoto” MY “met” KAAY TE 
语 (如 图 11-2 所 示 )。 这 两 个 名 词 都 被 标注 为 专 有 名 词 。 


直接 宾语 
i 限定 词 修饰 


介词 修饰 





介词 宾语 i 名 词性 主语 
In 1541 Desoto met the Pascagoula. 
ADP NUM PROPN VERB DET PROPN 


11-2 Pascagoula A 


Mt 
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要 为 spacy.matcher.Matcher 创建 词性 和 词 属性 的 模式 ， 以 表格 形式 列 出 所 有 的 词 条 标 
签 会 很 有 帮助 。 代 码 清单 11-14 展示 了 一 些 辅 助 函数 ， 使 上 述 过 程 更 容易 。 





代码 清单 11-14 spaCy 标注 字符 串 的 辅助 函数 


>>> import pandas as pd 
>>> from collections import OrderedDict 
>>> def token _dict (token): 
return OrderedDict (ORTH=token.orth_, LEMMA=token.lemma_, 
POS=token.pos_, TAG=token.tag_, DEP=token.dep_) 


>>> def doc_dataframe (doc): 
return pd.DataFrame([token_dict (tok) for tok in doc]) 


>>> doc_dataframe (en model ("In 1541 Desoto met the Pascagoula.") ) 


ORTH LEMMA POS TAG DEP 
0 In in ADP IN prep 
1 1541 1541 NUM CD pobj 
2 Desoto desoto PROPN NNP nsubj 
3 met meet VERB VBD ROOT 
4 the the DET DT det 
5 Pascagoula pascagoula PROPN NNP dobj 
6 PUNCT . punct 


从 上 例 中 , 我 们 可 以 看 到 了 POS 或 TAG 特征 值 组 成 的 序列 构成 了 一 个 正确 的 模式 。 如 果 我 们 
查找 人 与 组 织 之 间 的 “has-met” 关 系 , 我 们 可 能 希望 引入 诸如 “PROPN met PROPN” “PROPN met 
the PROPN” “PROPN met with the PROPN” “PROPN often meets with PROPN” 等 模式 。 我 们 可 
以 单独 指定 每 个 模式 ,或 者 在 我 们 的 专 有 名 词 之 间 尝 试 使 用 “any word” 加 上 * 或 ?操作 符 的 模式 
来 捕获 它们 : 


'PROPN ANYWORD? met ANYWORD? ANYWORD? PROPN' 


spaCy 中 的 模式 比 上 述 伪 代码 更 强大 、 更 灵活 ， 因 此 我 们 必须 更 加 详细 地 阐述 我 们 想 要 匹配 
的 词 的 特征 。 在 spaCy 的 模式 规范 中 ， 我 们 使 用 字典 为 每 个 词 或 词 条 去 捕获 想 要 匹配 的 所 有 标签 ， 
如 代码 清单 11-15 所 示 。 





代码 清单 11-15 示例 spaCy 词性 标注 模式 


>>> pattern = [{'TAG': 'NNP', 'OP': '+'}, {'IS ALPHA': True, 'OP': '*'}, 
{'LEMMA': 'meet'}, 
{'IS_ALPHA': True, 'OP': '*"}, {'TAG': 'NNP', 'OP': '+'}] 


然后 ， 我 们 可 以 从 解析 的 句子 中 提取 需要 的 带 标签 的 词 条 ， 如 代码 清单 11-16 所 示 。 





代码 清单 11-16 ”用 spaCy 创建 词性 标注 模式 匹配 器 


>>> from spacy.matcher import Matcher 
>>> doc = en_model("In 1541 Desoto met the Pascagoula.") 
>>> matcher = Matcher (en model .vocab) 
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>>> matcher.add('met', None, pattern) 
>>> m = matcher (doc) 

>>> m 

[ (12280034159272152371, 2, 6)] 


>>> doc[m[0] [1]:m[0] [2]] 
Desoto met the Pascagoula 


所 以 ,我 们 通过 上 述 模式 从 原始 句子 中 提取 了 一 个 匹配 项 ,但 是 对 于 维基 百科 中 类 似 句子 的 
效果 怎么 样 呢 ? 具体 做 法 参见 代码 清单 11-17。 





代码 清单 11-17 ”使 用 词性 标注 模式 匹配 器 





>>> doc = en model ("October 24: Lewis and Clark met their first Mandan Chief, 
Big White.") 

>>> m = matcher (doc) [0] 

>>> m 

(12280034159272152371, 3, 11) 


>>> doc[m[1]:m[2]] 
Lewis and Clark met their first Mandan Chief 


>>> doc = en_model("On 11 October 1986, Gorbachev and Reagan met at a house") 
>>> matcher (doc) 


[] 该 模式 与 选 自 维基 百科 的 句子 中 
的 任何 子 字符 串 都 不 匹配 


我 们 需要 再 添加 一 个 模式 ， 人 允许 动词 在 主语 和 宾语 名 词 之 后 出 现 ， 如 代码 清单 11-18 所 示 。 








代码 清单 11-18 ”组合 多 个 模式 得 到 更 鲁 棒 的 模式 匹配 器 





>>> doc = en_model("On 11 October 1986, Gorbachev and Reagan met at a house") 
>>> pattern = [{'TAG': 'NNP', 'OP': '+'}, {'LEMMA': 'and'}, {'TAG': 'NNP', 'O 
pi: Va 
ic ape {'IS_ALPHA': True, 'OP': '*'}, {'LEMMA': 'meet'}] 
>>> matcher.add('met', None attern) we x ` N 
í ap EEM er treme f 


= tch d 
a AE 模式 。 这 里 的 “met" 是 任意 命名 的 键 。 你 
可 以 按照 你 的 喜好 命名 模式 





[(14332210279624491740, 5, 9), 
(14332210279624491740, 5, 11), 
(14332210279624491740, 7, 11), “4” PERMI T EAH a Ee AAC BY) ai 
(14332210279624491740, 5, 12)] 
>>> doc[m[-1] [1] :m[-1] [2]] 
q 的 匹配 是 4 最 后 一 个 
Gorbachev and Reagan met at a house 最 长 的 匹配 是 匹配 列表 中 的 最 后 一 





所 以 现在 我 们 得 到 了 实体 和 关系 。 我们 甚至 可 以 构建 一 个 对 中 间 动 词 (“met”) 的 限制 更 少 、 
对 两 侧 的 人 或 组 织 的 名 称 限制 更 严格 的 模式 。 这 样 做 可 能 帮助 我 们 识别 出 更 多 类 似 的 动词 , 这些 
动词 也 表示 一 个 人 或 组 织 和 另 一 个 人 或 组 织 相遇 , 例如 动词 “knows”, 甚至 包括 被 动 短语 , 如 “had 
a conversation” 或 “became acquainted with”。 然 后 我 们 可 以 基于 这 些 新 的 动词 给 两 侧 新 的 专 有 名 
词 添 加 关系 。 
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但 是 大 家 也 能 发 现 我 们 是 如 何 偏离 初始 关系 模式 的 原本 含义 的 。 这 称 为 语义 漂移 (semantic 
drift), FISH, spaCy 在 对 被 解析 文档 中 的 词 打 标签 时 ， 不 仅 包含 词性 和 依存 树 信息 ， 还 提供 
了 Word2vec 词 向 量 。 我 们 可 以 利用 该 向 量 来 避免 动词 和 任何 一 侧 的 专 有 和 名词 的 连接 关系 偏离 初 
始 模式 的 原本 含义 太 远 。” 











11.4.2 ”实体 名 称 标准 化 


实体 的 标准 化 表示 通常 是 一 个 字符 串 ， 即 使 对 于 日 期 之 类 的 数字 信息 也 是 如 此 。 日 期 的 标准 
化 ISO 格式 为 “1541-01-01”。 实 体 的 标准 化 表示 使 我 们 的 知识 库 能 够 将 图 谱 中 在 同一 天 世界 上 
发 生 的 所 有 不 同事 情 连 接 到 同一 节点 ( 实体 )。 

我 们 对 其 他 类 型 的 命名 实体 也 采用 标准 化 。 我 们 更 正 单词 的 拼写 ， 并 尝试 处 理 物体 、 动 物 、 
人 物 、 地 点 等 名 称 的 歧义 。 特 别 是 对 于 代词 或 依赖 上 下 文 的 其 他 “名 称 ”， 标 准 化 命名 实体 和 解 
决 层 义 问题 通常 也 被 称 为 共 指 消解 ( coreference resolution ) 或 指 代 消解 (anaphora resolution )。 
这 与 我 们 在 第 2 章 中 讨论 的 词 形 归并 类 似 , 命名 实体 的 标准 化 确保 拼写 和 命名 变 体 不 会 产生 易 混 
淆 的 、 有 元 余 的 名 称 ， 从 而 污染 命名 实体 表 。 

SiH, “Desoto” 可 能 至 少 以 5 种 不 同 的 方式 在 特定 文档 中 出 现 : 

m “de Soto”; 
























































E “Hernando de Soto”; 

m “Hernando de Soto ( 24 1496 / 1497-1542 )， 西 班 牙 征服 者 ”; 

E https://.../.../Hernando de Soto (一 个 URI); 

图 著名 历史 人 物 数据 库 的 数字 ID. 

类 似 地 , 我 们 的 标准 化 算法 可 以 选择 上 述 任 何 一 种 形式 。 知 识 图 谱 应 以 相同 的 方式 对 每 种 实 
体 进行 标准 化 , 以 防止 同一 类 型 的 多 个 不 同 实体 使 用 了 相同 的 名 称 。 我 们 不 希望 多 个 人 的 名 字 都 
指向 同一 个 自然 人 。 更 重要 的 是 , 标准 化 应 该 一 以 贯 之 地 使 用 一 一 无 论 是 在 向 知识 库 写 人 新 的 事 
实 ， 还 是 在 读 取 或 者 查询 知识 库 时 都 应 如 此 。 

如 果 我 们 打算 在 填充 知识 库 之 后 更 改 标准 化 的 方法 ,那么 应 该 “迁移 ”或 更 新 知识 库 中 
已 有 实体 的 数据 ， 以 符合 新 的 标准 化 模式 。 用 于 存储 知识 图 谱 或 知识 库 的 无 模式 数据 库 ( 键 
值 存储 ), 也 会 受到 关系 数据 库 迁 移 的 影响 。 毕 竞 , 无 模式 数据 库 实 际 上 就 是 关系 数据 库 的 接 
口 封装 器 。 

实体 标准 化 之 后 ， 还 需要 “is-a” 关 系 将 它们 连接 到 实体 类 别 ， 这 些 实体 类 别 定 义 了 实体 的 
类 型 或 类 别 。 因 为 每 个 实体 可 以 具有 多 个 “is-a” 关 系 , 所 以 这 些 “is-a” 关 系 可 以 被 认为 是 标签 。 
类 似 于 人 名 或 者 词性 标签 ,如果 想 要 在 知识 库 中 使 用 日 期 和 其 他 离散 数字 对 象 , 也 需要 对 其 进行 
标准 化 。 

那么 实体 之 间 的 关系 呢 ? 这 些 关 系 也 需要 以 某 种 标准 化 的 方式 存储 吗 ? 




























































































D 这 是 一 个 热门 研究 课题 。 
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11.4.3 ”实体 关系 标准 化 和 提取 


现在 ,我们 需要 一 种 标准 化 实体 关系 的 方法 ， 从 而 确定 实体 之 间 的 关系 类 型 。 通 过 标准 化 ， 
我 们 可 以 找到 日 期 和 人 之 间 的 所 有 生日 关系 ,或 历史 事件 发 生 的 日 期 ,类似 于 “Hernando de Soto” 
All “Pascagoula people” 相 遇 的 事件 。 我 们 需要 编写 算法 来 选择 上 述 关系 中 的 正确 标签 。 

此 外 ， 这 些 关系 可 以 采用 层次 化 的 命名 方式 ， 例 如 “发 生 于 /近似 地 ”和 “发 生 于 /精确 地 ”， 
从 而 让 我 们 采用 特定 的 关系 或 者 关系 类 别 。 我 们 还 可 以 使 用 一 个 数字 属性 来 标记 这 些 关系 的 “ 置 
信和 度 ”、 概 率 、 权 重 或 者 标准 化 频率 (类似 于 词 项 /单词 的 TF-IDF )。 每 次 当 我 们 从 新 文本 中 提取 
的 事实 证 实 了 知识 库 中 存在 的 事实 或 与 该 事实 矛盾 时 ， 我 们 都 可 以 调整 这 些 置信 度 的 值 。 

现在 ， 我 们 需要 一 种 方法 来 匹配 可 以 找到 这 些 关 系 的 模式 。 



































11.4.4 单词 模式 


单词 模式 就 像 正 则 表达 式 一 样 ， 但 它 用 于 单词 而 不 是 字符 。 我 们 使 用 单词 类 ， 而 不 使 用 字符 类 。 
例如 ， 我 们 不 是 通过 匹配 小 写字 符 ， 而 是 通过 单词 模式 判定 方法 来 匹配 所 有 的 单数 名 词 ( 词性 标注 为 
“NN”)“。 这 往往 通过 机 器 学 习 来 实现 。 一 些 种 子 句 利 用 从 句子 中 提取 的 正确 关系 (事实 ) 来 进行 标 
LE, 然后 可 以 通过 词性 标注 模式 查找 类 似 的 句子 ， 即 使 句子 中 的 主语 词 和 宾语 词 其 至 关系 有 所 变化 。 

无 论 想 要 匹配 多 少 个 模式 ， 我 们 都 可 以 使 用 spaCy 包 以 两 种 不 同 的 方式 在 0(1) ( 常数 时 间 ) 
时 间 内 匹配 这 些 模式 ， 

m 用 于 任何 单词 /标签 序列 模式 的 PhraseMatcher ; 

加 ”用 于 词性 标签 序 列 模式 的 Matcher o 

为 了 确保 在 新 句子 中 找到 的 新 关系 真正 类 似 于 原始 的 种 子 ( 例子 ) 关系 ,我 们 通常 需要 新 句 
子 中 的 主语 词 、 关 系 词 和 宾语 词 的 含义 与 种 子 句子 中 的 相似 。 实 现 上 述 目标 的 最 好 方法 是 使 用 词 
义 的 向 量 表示 。 这 种 方法 管用 吗 ? 实际 上 , 第 4 章 中 讨论 的 词 向 量 ,是 实现 上 述 目标 的 最 广泛 使 
用 的 词义 表示 方法 之 一 。 词 向 量 有 助 于 尽 可 能 减少 语义 漂移 的 发 生 。 

使 用 单词 和 短语 的 语义 向 量 表示 使 自动 信息 提取 精确 到 能 够 自动 构建 大 型 知识 库 。 不 过 仍然 
需要 人 工 监督 和 管理 来 处 理 自然 语言 文本 中 的 大 量 歧义 。CMU 的 NELL 支持 用 户 基 于 Twitter 
和 Web 应 用 程序 对 知识 库 的 更 改进 行 投票 。 



















































































11.4.5 “文本 分 割 
前 面 我 们 忽略 了 一 种 信息 提取 的 方式 , 而 该 方式 也 是 信息 提取 的 一 种 工具 。 我 们 在 本 章 中 处 























® spaCy 使 用 “OntoNotes 5” 词 性 标签 。 
详 见 标题 为 “Code Examples - spaCy Usage Documentation” 的 网 页 。 
© 详 见 标题 为 “Code Exampl Cy Usage D 的 网 页 
®© 详 见 标题 为 “Matcher - spaCy API Documentation” 的 网 页 。 
D 详 见 标题 为 “NELL: The Computer that Learns - Carnegie Mellon University” 的 网 页 。 
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理 的 大 部 分 文档 都 是 只 包含 少量 事实 和 命名 实体 的 小 的 文档 块 。 但 在 实际 应 用 中 , 我 们 可 能 需要 
自己 创建 这 些 文档 块 。 

文档 “组 块 ”( chunking ) 有 助 于 创建 关于 文档 的 半 结 构 化 数据 ， 从 而 让 文档 在 信息 检索 场 
景 中 更 加 容易 搜索 、 过滤 和 排序 。 对 于 信息 提取 , 如 果 我 们 从 中 提取 关系 以 构建 知识 库 ( 如 NELL 
或 Freebase )， 则 需要 将 文档 拆 分 成 可 能 包含 一 到 两 个 事实 的 多 个 部 分 。 我 们 把 自然 语言 文本 划 
分 为 有 意义 的 各 部 分 的 过 程 , 称 为 文本 分 割 (segmentation )。 得 到 的 分 割 结果 可 以 是 短语 、 句 子 、 
引文 、 段 落 甚至 是 长 文档 的 整个 章 市 。 

对 于 大 多 数 信息 提取 问题 ,句子 是 最 常见 的 块 。 句子 之 间 通 常 使 用 一 些 符 号 (.、? 、! 或 换行 
符 ) 作为 标点 。 语 法 正确 的 英语 句子 必须 包含 一 个 主语 ( 名词 ) 和 一 个 动词 , 这 意味 着 它们 之 间 
通常 至 少 有 一 个 关系 或 事实 值得 提取 。 句子 的 意义 通常 是 自 包 含 的 , 不 会 过 多 依赖 前 面 的 文本 来 
传达 句子 的 大 部 分 信息 。 

幸运 的 是 , 包括 英语 在 内 的 大 多 数 语言 都 有 人 句子 的 概念 ， 即 一 个 单独 的 语句 ,包含 一 个 主语 
和 一 个 表达 了 某 些 内 容 的 动词 。 对 于 我 们 的 NLP 知识 提取 流水 线 ， 句子 正 是 我 们 所 需要 的 文本 
块 。 对 于 聊天 机 器 人 流水 线 ， 我 们 的 目标 是 将 文档 划分 成 句子 或 语句 。 

除了 便于 信息 提取 , 我 们 还 可 以 将 其 中 一 些 语句 和 句子 进行 标记 , 然后 作为 对 话 的 一 部 分 或 
者 对 话 中 的 适当 回复 。 通 过 断 句 ,我 们 可 以 在 较 长 的 文本 ( 如 书籍 ) 上 训练 聊天 机 器 人 。 相 比 于 
单纯 在 Twitter 流 或 IRC 聊天 记录 上 训练 ， 选 择 合适 的 书籍 可 以 使 我 们 的 聊天 机 器 人 具有 更 文艺 、 
智慧 的 风格 。 这 些 书 籍 使 我 们 的 聊天 机 器 人 可 以 使 用 范围 更 广 的 训练 文档 ,从 而 获得 关于 世界 的 
第 识 性 知识 。 

断 句 

WAJ (sentence segmentation ) 通常 是 信息 提取 流水 线 的 第 一 步 。 它 有 助 于 将 事实 彼此 隔离 ， 
以 便 我 们 可 以 在 “The Babel fish costs $42. 42 cents for the stamp.” ( 宝贝 鱼 花 费 42 美元 ， 邮 票 花 
费 42 美 分 。) 这 个 字符 串 中 , 将 正确 的 价格 与 正确 的 事物 相关 联 。 上 述 字 符 串 是 表明 断 句 很 难 的 
一 个 很 好 的 例子 一 一 中 间 的 句点 可 以 被 解释 为 小 数 点 或 句号 结束 符 。 

我 们 从 文档 中 提取 的 最 简单 的 “信息 ”是 包含 逻辑 连贯 语句 的 词 序列 。 在 自然 语言 文档 中 ， 
重要 性 排 在 词 之 后 的 是 句子 。 句子 包含 了 关于 世界 的 逻辑 连贯 语句 。 这 些 语 句 包 含 我 们 要 从 文本 
中 提取 的 信息 。 句 子 描述 事实 的 时 候 ， 和 常常 描 述 事物 之 间 的 关系 以 及 世界 运行 的 原理 ， 因 此 我 们 
可 以 基于 句子 进行 知识 提取 。 句子 通常 用 来 解释 在 过 去 的 某 个 时 间 、 某 个 地 点 , 事情 是 怎么 发 生 
的 , 一般 会 怎么 发 展 , 或 者 将 来 会 怎么 发 展 。 因 此 ， 我们 还 应 该 能 够 用 句子 作为 指导 ,提取 有 关 
日 期 、 时 间 、 地 点 、 人 ， 甚 至 事件 或 任务 序列 的 事实 。 而 且 ， 最 重要 的 是 ， 所 有 自然 语言 都 有 名 
子 或 某 种 逻辑 连贯 的 文本 部 分 。 并 且 所 有 语言 都 有 一 个 广泛 认同 的 步骤 来 生成 它们 (一 套 语 法 规 
则 或 习惯 )。 

但 是 断 句 即 识别 句子 边界 ， 比 我 们 想象 的 要 复杂 一 些 。 例 如 , 在 英语 中 ,没有 哪个 标点 符号 
或 字符 序列 可 以 始终 标记 句子 的 结尾 。 
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11.46 ”为 什么 split(.!?) 函 数 不 管 用 


即使 是 人 也 可 能 无 法 在 下 面 的 每 对 引号 中 找 出 合适 的 句子 边界 。 对 这 些 疑难 例子 来 说 ,如 果 
在 每 对 引号 中 都 能 找 出 多 个 句子 ， 那 么 错误 率 会 达到 4/5: 





I live in the U.S. but I commute to work in Mexico on S.V. Australis for a woman from St. 
Bernard St. on the Gulf of Mexico. 

I went to GT. You? 

She yelled “It’s right here!” but I kept looking for a sentence boundary anyway. 

I stared dumbfounded on as things like “How did I get here?,” “Where am I?,” “Am I 
alive?” flittered across the screen. 


The author wrote “'I dont think it’s conscious.' Turing said.” 


即使 是 人 也 可 能 难以 在 每 对 引号 中 找到 合适 的 句子 边界 。 更 多 断 句 的 “极端 例子 ”可 以 在 
nlpia.data 模块 中 找到 。 

技术 文档 特别 难以 断 句 ， 因 为 对 工程 师 、 科 学 家 和 数学 家 来 说 , 句号 和 感叹 号 除 可 以 用 来 表 
示 句 子 结 尾 之 外 ,还 会 被 用 来 表示 很 多 其 他 内 容 。 当 我 们 尝试 在 本 书 中 找 出 句子 边界 时 , 我们 也 
需要 手动 纠正 一 些 断 句 的 结果 。 

要 是 我 们 像 写 英文 电报 那样 ， 在 每 个 句子 的 结尾 加 上 “STOP” 或 唯一 的 标点 符号 就 好 了 。 因 
为 实际 做 不 到 这 样 , 所 以 我 们 需要 一 些 更 复杂 的 NLP 方法 ,而 不 仅仅 是 split (' .!1?')。 希望 大 
家 已 经 想到 了 解决 方法 。 如 果 有 的 话 ， 这 个 方法 可 能 基于 我 们 在 本 书 中 已 经 使 用 过 的 两 种 NLP 方 
法 之 一 : 

E 手动 编程 算法 ( 正则 表达 式 和 模式 匹配 ); 

mw 统计 模型 ( 基于 数据 的 模型 或 机 吕 学 习 )。 

我 们 通过 断 句 问题 来 重新 审视 上 述 这 两 种 方法 , 向 大 家 展示 如 何 使 用 正则 表达 式 和 感知 机 来 
查找 句子 边界 。 并 且 我 们 将 使 用 本 书 的 文本 作为 训练 集 和 测试 集 来 展示 上 述 方法 遇 到 的 一 些 挑 
战 。 幸 运 的 是 ， 大 家 没有 在 句子 内 部 揪 入 任何 换行 符 来 手动 将 文本 处 理 成 报纸 的 列 式 布局 那样 。 
人 否则， 问题 将 更 加 困难 。 实 际 上 ， 本 书 的 大 部 分 源 文本 都 是 用 ASCIIdoc 格式 编写 的 ， 使 用 “ 老 
一 套 ” 的 句子 分 隔 符 〈 每 个 句子 结尾 后 有 两 个 空格 )， 或 者 每 个 句子 单独 写 一 行 。 这 样 我 们 就 可 
以 把 本 书 用 作 断 句 任 务 的 训练 集 和 测试 集 。 



















































































































































































11.4.7 ”使 用 正则 表达 式 进 行 断 名 


正则 表达 式 只 是 描述 “if... then” 规 则 树 〈 正 则 语法 规则 ) 的 简写 方法 ， 用 于 查找 字符 串 中 
的 字符 模式 。 正 如 我 们 在 第 1 章 和 第 2 章 中 提 到 的 ,正则 表达 式 ( 正则 语法 ) 是 指定 有 限 状 态 机 
规则 的 一 种 特别 简明 的 方法 。 我 们 的 正则 表达 式 或 有 限 状 态 机 只 有 一 个 目的 : 识别 句子 边界 。 
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如 果 大 家 在 网 上 搜索 断 名 工具 ， 可 能 会 找到 各 种 用 于 捕获 最 常见 句子 边界 的 正则 表达 式 。 








是 其 中 的 一 些 , 它们 通过 组 合 和 增强 给 大 家 提供 快速 、 通 用 的 断 句 表 达 式 。 以 下 正则 表达 式 
Fo ER” WE: 
>>> re.split(r'[!.?]+[ $]', "Hello World.... Are you there?!?! I'm going 

to Mars!") 


['Hello World', ‘Are you there', "I'm going to Mars!"] 


遗憾 的 是 ， 上 述 re.split 方法 消耗 了 句子 的 分 隅 符 ， 只 有 该 分 隔 符 是 文档 或 者 字符 串 的 











最 后 


A sy 
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>>> re.split(r'[!.?] ', "The author wrote \"'I don't think it's conscious.' 
Turing said.\"") 
['The author wrote "\'I don\'t think it\'s conscious.\' Turing said."'] 


但 是 该 方法 也 忽略 了 引号 中 真实 句子 的 分 隔 符 。 这 可 能 是 好 事 也 是 坏事 ， 取 决 于 断 名 之 后 的 
息 提 取 步 又 


>>> re.split(r'[!.?] ', "The author wrote \"'I don't think it's conscious.' 
Turing said.\" But I stopped reading.") 

['The author wrote "\'I don\'t think it\'s conscious.\' Turing said." But I 
stopped reading."'] 


缩写 文本 怎么 样 ， 如 短 消 息 和 推 文 ”有 时 人 们 着 急 会 把 句子 写 到 一 起 ,句号 周围 没有 留 空 。 
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以 下 正则 表达 式 只 能 处 理 在 任何 一 侧 都 有 字母 的 短 消息 中 的 句号 ， 并且 它 可 以 安全 地 跳 过 数值 : 


>>> re.split(r'(?<!\d)\.I\.(?!\d)', "I went to GT.You?") 
['I went to GT', 'You?'] 


即使 合并 上 面 两 个 正则 表达 式 ， 也 无 法 在 nlPia.data 的 疑难 测试 用 例 中 获得 较 好 的 效果 : 


>>> from nlpia.data.loaders import get_data 

>>> regex = re.compile(r'((?<!\d)\.I\.(?!\d)) 1 (£!.2?]+) [ $]+') 
>>> examples = get_data('sentences-tm-town') 

>>> wrong = [] 

>>> for i, (challenge, text, sents) in enumerate (examples): 


if tuple (regex.split(text)) != tuple (sents): 
print('wrong {}: {}{}'.format(i, text[:50], '...' if len(text) > 
50 else '')) 
wrong += [i] 


>>> len(wrong), len(examples) 
(61, 61) 


大 家 必须 添加 更 多 “前 向 环视 ”和 “后 向 环视 ”来 提高 正则 表达 式 断 名 工具 的 精确 性 。 更 好 




















的 断 句 方 法 是 使 用 在 标记 好 的 句子 集合 上 训练 的 机 器 学 习 算法 (通常 是 单 层 神经 网 络 或 对 率 回 


H), 








有 些 软件 包含 这 之 样 的 模型 ， 大 家 可 以 使 用 它 来 改进 你 的 断 句 工具 : 


a DetectorMorse i 5 





ï 


© 详 


见 标题 为 “Python sentence segment at DuckDuckGo” AYP DL. 











见 标 题 为 “GitHub - cslu-nlp/DetectorMorse: Fasts upervised sentence boundary detection using the averaged 


perceptron” AYP it. 
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spaCy ; 
SyntaxNet” ; 
NLTK (Punkt) °; 


E 
E 
E 
E Stanford CoreNLP”, 


别 与 问答 系统 ) 





对 于 大 多 数 关键 任务 的 应 用 程序 ， 我 们 使 用 spaCy 断 句 工具 (内置 于 解析 器 中 )。spaCy 依 
赖 少 ， 并 且 在 精确 率 和 速度 方面 与 其 他 工具 相当 。 如 果 大 家 想 使 用 目前 效果 最 好 的 纯 Python 实 











现 来 使 用 自己 的 训练 集 进 行 优化 ， 那 么 Kyle Gorman f 


11.5 现实 世界 的 信息 提取 


信息 提取 和 问答 系统 可 用 于 : 
E ”大 学 课程 的 助教 ; 

E 客户 服务 

E ”技术 支持 

mo 

mE SCRA IL RA 
信息 提取 可 用 于 提取 : 

mw 日 期 
m ”时间 
m 价格 
E 数量 
m ”地址 
E 名 称 


























E 关系 
@ “is-a” (事物 的 种 类 ) 
@ “has”( 事 物 的 属性 ) 






































的 DetectorMorse 是 另 一 个 不 错 的 选择 。 





羊 见 标题 为 “Facts & Figures - spaCy Usage Documentation” 的 网 页 。 

羊 见 标题 为 “models/syntaxnet-tutorialmd at master” 的 网 页 。 

详 见 标题 为 “nltk.tokenize package 一 NLTK 3.3 documentation” 的 网 页 。 
详 见 标题 为 “torotoki / corenlp-python 一 Bitbucket” 的 网 页 。 
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@ “related-to” 
无 论 是 从 大 型 语料库 还 是 实时 从 用 户 输入 中 解析 信息 , 能 够 提取 特定 细节 并 将 其 存储 起 来 供 
以 后 使 用 对 于 聊天 机 器 人 的 性 能 至 关 重 要 。 首 先 , 通过 识别 和 分 离 这 些 信息 ,然后 通过 标注 这 些 
言 息 之 间 的 关系 ,我们 学 会 了 以 编程 的 方式 “标准 化 ”信息 。 通 过 将 这 些 知 识 安全 存储 在 可 搜索 
的 结构 中 ， 我 们 的 聊天 机 器 人 将 具备 在 特定 领域 中 开展 对 话 的 能 




































































n.6 小 结 


可 以 构建 知识 图 谱 来 存储 实体 之 间 的 关系 。 

正则 表达 式 是 一 种 可 以 分 离 和 提取 信息 的 微型 编程 语言 。 
词性 标注 允许 提取 一 个 句子 中 实体 之 间 的 关系 。 

断 句 不 仅仅 是 分 开 句 号 和 感叹 号 。 
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本 章 主 要 内 容 

国 了 解 聊 天 机 器 人 的 4 种 实现 方法 

图 学 握 人 工 智能 标记 语言 (AIML ) 

图 训 悉 聊天 机 器 人 流水 线 和 其 他 自然 语言 处 理 流 水 线 的 区 别 
国 了 解 一 种 将 最 佳 思路 合 为 一 体 的 聊天 机 器 人 混合 架构 

M 通过 机 器 学 习 使 聊天 机 器 人 变 得 越 来 越 聪明 

图 让 聊天 机 器 人 开口 一 一 让 它 自发 地 说 出 自己 的 想法 


本 书 一 开篇 就 介绍 了 对 话 引擎 或 者 聊天 机 器 人 自然 语言 处 理 流水 线 的 概念 ， 因 为 我 们 认为 这 
是 21 世纪 最 重要 的 自然 语言 处 理应 用 之 一 。 有 史 以 来 第 一 次 ， 我 们 可 以 用 我 们 自己 的 语言 和 机 器 
说 话 ， 而 且 有 的 时 候 我 们 分 辨 不 出 对 方 是 机 器 还 是 人 类 。 机 需 可 以 假装 成 人 类 ， 这 个 说 起 来 容易 ， 
做 起 来 却 很 难 。 如 果 大 家 认为 自己 的 聊天 机 器 人 有 这 个 能 力 ， 可 以 参加 目前 的 一 些 现金 奖励 比赛 : 
E The Alexa Prize ($3.5M ); 
Loebner Prize ( $7k ); 
The Winograd Schema Challenge ( $27k ) °; 
The Marcus Test’; 
The Lovelace Test 。 
通过 对 本 章 知 识 的 学 习 , 大 家 能 收获 到 的 东西 包括 但 不 限于 : 通过 搭建 对 话机 器 得 到 的 纯 乐 
趣 和 魔力 , 通过 搭建 的 机 器 人 在 智商 测试 中 击败 人 类 后 获得 的 荣耀 , 通过 搭建 机 器 人 使 世界 免 受 
晋 意 黑 客 僵尸 网 络 攻击 的 陶陶 然 的 感觉 , 通过 搭建 机 器 人 在 虚拟 助手 游戏 中 击败 谷歌 和 亚马逊 得 
到 的 奖金 。 
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@ David Bender 发 起 的 “Establishing a Human Baseline for the Winograd Schema Challenge”, Kurzweil 发 起 
的 “An alternative to the Turing test”. 

© (HMA) 2014 年 1 月 发 表 的 “What Comes After the Turing Test”. 

3) Reidl 发 起 的 “The Lovelace 2.0 Test of Artificial Creativity and Intelligence” v 
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21 世纪 将 建立 在 用 于 辅助 人 类 的 AI( 人 工 智 能 ) 基础 之 上 。AI 最 自然 的 交互 方式 是 自然 语 
言 对 话 。 例如，Aira.io 的 聊天 机 器 人 Chloe 正在 帮助 视 障 群体 了 解 世界 。 其 他 公司 正在 构建 律师 
聊天 机 器 人 ,为 用 户 节 省 数 千 美 元 (或 英镑 ) 的 停车 罚单 和 上 庭 时 间 。 自 动 驾 驶 汽车 可 能 会 很 快 
拥有 类 似 于 谷歌 智能 助理 和 谷歌 地 图 那样 的 对 话 界面 ， 从 而 帮助 大 家 到 达 目 的 地 。 














12.1 语言 技能 


我 们 目前 拥有 了 组 装 聊天 机 器 人 (更 正式 的 说 法 是 ,一 个 对 话 系 统 或 对 话 引擎 ) 所 需 的 所 有 
组 件 。 我 们 也 将 构建 一 个 可 以 参与 自然 语言 对 话 的 NLP 流水线。 

我 们 即将 用 到 的 一 些 NLP 技能 包括 : 
分 词 、 词 干 还 原 和 词 形 归并 ; 
向 量 空间 语言 模型 ， 例 如 词 袋 向 量 或 主题 向 量 (语义 向 量 ); 
更 深层 次 的 语言 表示 ， 如 词 向 量 或 LSTM 思想 向 量 ; 
序列 到 序列 的 翻译 器 (OR ASS 10 ); 
模式 匹配 (来 自 第 11 章 ); 

加 用 于 生成 自然 语言 文本 的 模板 。 

基于 上 述 工具 ,我们 可 以 构建 一 个 行为 有 趣 的 聊天 机 如 人 。 

首先 确保 我 们 对 聊天 机 器 人 的 认 知 是 一 致 的 。 在 某 些 社区 中 , “chatbot” 这 个 词 以 一 种 略 带 
贬义 的 方式 指 代 “ 预 设 回 复 ” 系 统 。 这 些 聊天 机 器 人 在 输入 文本 中 查找 模式 ， 然 后 基于 模式 对 
应 的 匹配 来 触发 固定 的 或 者 模板 化 的 回复 。 大 家 可 以 把 这 些 只 知道 基本 、 通 用 问题 答案 的 机 器 
人 当 作 FAQ 机 器 人 。 这 些 基本 的 对 话 系 统 主 要 用 于 自动 客户 服务 电话 网 系统 ， 在 这 些 聊天 机 器 
人 没有 匹配 上 预 设 回复 时 ， 可 以 将 对 话 交 给 人 来 继续 。 

但 这 并 不 意味 着 我 们 的 聊天 机 器 人 需要 如 此 受 限 。 如 果 大 家 对 于 这 些 模式 和 模板 非常 精通 ， 那 
么 聊天 机 器 人 可 以 成 为 邻 人 信服 的 心理 治疗 或 咨询 会 话 中 的 治疗 师 。 早 在 1964 年 ,Joseph Weizenbaum 
就 使 用 模式 和 模板 构建 了 第 一 个 流行 的 聊天 机 器 人 ELIZA。 此 外 ，Facebook Messenger 中 非常 有 
效 的 治疗 机 器 人 Woebot 就 在 很 大 程度 上 依赖 模式 匹配 和 模板 响应 方法 。 构 建 可 以 获 图 灵 奖 的 聊 
天 机 器 人 所 需 的 只 是 为 模式 匹配 系统 添加 一 些 状态 (上下文 ) 管理 。 

Steve Worswick 的 Mitsuku 聊天 机 器 人 在 2016 年 和 2017 年 使 用 模式 匹配 和 模板 方法 赢得 了 
勒 布 纳 人 工 智能 奖 ， 这 是 图 灵 测 试 的 一 种 方式 。 他 添加 了 上 下 文 或 状态 信息 ， 让 Mitsuku 更 有 深 
度 。 大 家 可 以 在 维基 百科 上 查阅 其 他 获奖 者 。 亚 马 逊 最 近 在 Alexa 中 添加 了 这 一 额外 的 对 话 深度 
( 上下文) 层 ， 并 将 其 称 为 “接力 模式 ”"。 我 们 在 本 章 中 将 学 习 如 何 为 自己 的 基于 模式 匹配 的 聊 
KPLA RIME FC. 
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见 维基 百科 词 条 “Canned Response” o 
见 荷 兰 开 放大 学 的 A.F. van Woudenberg 推出 的 “A Chatbot Dialogue Manager” 
JL Verge 的 文章 “Amazon Follow-Up Mode”. 
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12.1.1 现代 方法 


A ELIZA 出 现 以 来 ， 聊 天 机 器 人 已 经 经 过 了 漫长 的 发 展 。 几 十 年 来 ,模式 匹配 技术 得 到 了 
推广 和 完善 ,同时 也 出 现 了 全 新 的 方法 对 模式 匹配 技术 进行 补充 。 在 最 近 的 文献 中 ， 聊 天 机 器 人 
往往 被 称 为 对 话 系统 ,可 能 是 因为 聊天 机 器 人 的 复杂 性 。 利 用 文本 中 的 匹配 模式 并 使 用 这 些 模式 
提取 的 信息 填充 预先 设计 好 的 响应 模板 只 是 现代 构建 聊天 机 器 人 的 4 种 方法 之 一 : 

Mm 模式 匹配 方法 一 一 模式 匹配 和 响应 模板 预 设 响应 ); 

图 基础 方法 一 一 滁 辑 知 识 图 谱 和 基于 这 些 图 谱 的 推断 ; 

E 搜索 方法 一 一 文本 检索 ; 

图 生成 方法 一 一 统计 和 机 器 学 习 。 

上 面 大 致 按照 出 现 的 顺序 列 出 了 这 些 方法 。 我 们 后 续 也 将 按 这 个 顺序 介绍 它们 。 但 在 向 大 
家 介绍 如 何 使 用 每 种 方法 生成 回复 之 前 , 我 们 先 向 大 家 展示 在 现实 世界 中 聊天 机 器 人 是 如 何 使 
用 这 些 技术 的 。 

最 先进 的 聊天 机 器 人 混合 使 用 了 上 述 所 有 技术 。 这 种 混合 方法 能 够 使 聊天 机 器 人 完成 广泛 的 
任务 。 下 面 是 聊天 机 器 人 部 分 应 用 场景 的 列表 。 大 家 可 能 会 注意 到 ， 聊 天 机 器 人 越 先进 ,如 Siri. 
Alexa 和 Allo 等 ， 能 够 应 用 的 场景 或 者 处 理 的 问题 就 越 多 : 

m 问答 一 一 Google 搜索 、Alexa、Siri、Watson; 






























































图 虚拟 助手 一 一 Google Assistant, Alexa, Siri, MS paperclip; 
E 对 话 Google Assistant, Google Smart Reply, Mitsuki Bot; 
国营 销 一 一 Twitter 机 器 人 、 博 客机 器 人 、Facebook HL4# A. Google 搜索 、Google Assistant, 


Alexa, Allo; 
社区 管理 一 一 Bonusly、Slackbot; 
客服 一 一 店面 机 咒 人 ， 技 术 文 持 机 带 人 ; 
医疗 一 一 Woebot、Wysa、YourDOST、Siri、Allo。 
思考 一 下 ， 如 何 组 合 上 述 4 种 基本 的 对 话 引 苟 来 为 这 7 个 应 用 场景 创建 聊天 机 器 人 呢 ? 图 12-1 
展示 了 一 些 聊天 机 器 人 是 怎么 做 的 。 
我 们 简单 地 介绍 一 下 这 些 应 用 场景 ， 以 帮助 大 家 为 自己 的 应 用 场景 构建 一 个 聊天 机 器 人 。 


1. 问答 


问答 聊天 机 器 人 用 于 回答 关于 世界 的 事实 问题 ， 其 中 可 以 包括 关于 聊天 机 器 人 本 身 的 问题 。 
实际 上 , 许多 问答 系统 会 首先 搜索 知识 库 或 关系 数据 库 查 找 现实 世界 提供 的 基准 答案 。 如 果 找 不 
到 可 以 接受 的 答案 , 问答 系统 可 能 会 搜索 非 结 构 化 数据 语 料 ( 甚至 是 整个 Web ) 来 查找 问题 的 答 
案 。 这 基本 就 是 Google 搜索 的 做 法 。 解 析 请 求 、 识 别 需要 回答 的 问题 并 找 出 正确 答案 ， 需 要 一 
个 复杂 的 流水 线 , 该 流水 线 综合 了 前 面 章 节 中 介绍 的 大 部 分 技术 。 问 答 聊天 机 器 人 是 最 难 成 功 实 
现 的 ， 因 为 它们 需要 综合 许多 不 同 的 技术 要 素 。 
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问答 


虚拟 助手 


1. 模式 匹配 方法 






2. 基础 方法 对 话 


3. 搜索 方法 pe 客服 
社区 管理 


4. 生成 方法 医疗 








图 12-1 用 于 一 些 示例 应 用 的 聊天 机 器 人 技术 


2. 虚拟 助手 


当 大 家 心里 有 明确 目标 时 ， 虚 拟 助 手 (如 Alexa 和 Google Assistant ) 会 很 有 帮助 。 这 里 的 目 
标 或 意图 通常 指 一 些 简单 的 事情 ,例如 启动 应 用 程序 、 设 置 提 醒 、 播 放 音 乐 或 打开 家 中 的 灯 。 出 
于 这 个 原因 ,虚拟 助手 通常 被 称 为 基于 目标 的 对 话 引 警 。 如 果 用 户 对 完成 指定 动作 或 检索 某 些 信 
息 感 到 满意 ， 与 此 类 聊天 机 器 人 的 对 话 往往 会 很 快 结 

大 家 可 能 熟悉 手机 或 智能 家 居 系 统 上 的 虚拟 助手 , 但 大 家 可 能 不 知道 虚拟 助手 也 可 以 帮助 我 
们 解决 法 律 纠纷 和 税务 问题 。 虽然 Intuit 公司 的 TurboTax 向 导 不 是 很 健谈 , 但 它们 确实 实现 了 复 
杂 的 自动 话 务 台 。 大 家 不 是 通过 语音 或 对 话 ， 而 是 通过 在 表单 中 填写 结构 化 数据 与 它们 互动 。 所 
以 TurboTax 向 导 还 不 能 真正 称 为 聊天 机 器 人 ， 但 如 果 税 务 机 器 人 AskMyUncleSam 走红 的 话 ， 
TurboTax 向 导 一 定 会 很 快 被 封装 到 聊天 接口 中 。” 

律师 虚拟 助手 聊天 机 器 人 已 经 在 纽约 和 伦敦 成 功 申 诉 了 数 百 万 美元 的 停车 罚单 。 甚至 在 一 
家 英国 律师 事务 所 ， 大 家 与 律师 交流 的 唯一 方式 就 是 通过 聊天 机 器 人 。 律师 显然 是 基于 目标 的 虚 
拟 助 手 ， 他 们 能 做 的 不 仅仅 是 设 定 预 约 日 期 他们 还 会 预约 上 庭 日 期 也许 会 帮助 大 家 打 启 官司 。 

Aira.io 正在 开发 一 个 名 为 Chloe 的 虚拟 助手 。Chloe 为 视 障 人 士 提供 了 “ 视 障 人 士 可 视 化 解 
释 器 "。 使 用 期 间 ，Chloe 会 询问 客户 “你 是 视 障 人 士 吗 ? ”“ 你 有 导 盲 犬 吗 ? ”“ 你 有 任何 需要 我 
们 知道 的 食物 过 敏 或 饮食 偏好 吗 ? ”之 类 的 问题 。 如 果 大 家 的 应 用 程序 是 围绕 对 话 系统 设计 的 ， 
那么 这 种 设计 被 称 为 语音 优先 设计 。 将 来 ， 随 着 Chloe 学 会 通过 实时 视频 流 了 解 现 实 世界 ， 她 所 
能 提供 的 帮助 会 大 大 扩展 。 全 世界 与 Chloe 交流 的 “探索 者 ”将 训练 她 了 解 人 类 在 现实 世界 中 的 

















































































































@® 详 见 2017 年 1 H AskMyUncleSam 在 VentureBeat 上 的 文章 。 
© 详 见 2016 年 6 月 ， 英 国 卫 报 文章 “Chatbot Lawyer Overturns 160 000 Parking Tickets in London and New York” 
3) FEJL 2017 4F 11 H Legal Futures 博客 文章 “Chatbot-based ‘firm without lawyers’ launched”。 
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日 常 活动 。Chloe 是 少数 几 个 完全 设计 用 来 辅助 而 不 是 影响 或 操纵 人 类 的 虚拟 助手 之 一 。” 

像 Sri、Google Assistant, Cortana 和 Aira 的 Chloe 这 样 的 虚拟 助手 每 天 都 在 变 得 更 聪明 。 虚 拟 
助手 从 与 人 类 以 及 其 连接 的 其 他 设备 的 交互 中 学 习 。 它 们 正在 开发 始终 通用 的 、 领 域 无 关 的 智能 。 
如 果 想 了 解 通用 人 工 智 能 (AGI )， 大 家 需要 将 试验 虚拟 助手 和 对 话 聊天 机 器 人 作为 研究 的 一 部 分 。 


3. 对 话 


对 话 聊天 机 器 人 ， 如 Worswick 的 Mitsuku 或 任何 一 款 Pandorabots ， 都 是 为 了 娱乐 而 设计 
的 。 只 要 拥有 大 量 数据 这些 机 器 人 通常 只 需 很 少 的 代码 就 可 以 实现 。 但 把 对 话 聊天 机 器 人 做 好 
则 是 一 个 不 断 演化 的 挑战 。 对 话 聊 天 机 絮 人 的 精确 性 或 性 能 通常 用 类 似 图 灵 测 试 的 方法 来 衡量 。 
在 典型 的 图 灵 测 试 中 ,人 类 通过 终端 与 男 一 个 聊天 参与 者 互动 , 并 试图 和 弄 清楚 它 是 机 器 人 还 是 人 
类 。 聊 天 机 器 人 越 难 与 人 类 区 分 开 来 ， 其 在 图 灵 测 试 指 标 上 的 性 能 就 越 好 。 

在 上 述 图 灵 测 试 中 ,聊天 机 器 人 预期 掌握 的 领域 知识 ( 知识 多 样 性 ) 和 模仿 人 类 行为 的 能 
每 年 都 在 增长 。 随 着 聊天 机 器 人 越 来 越 善 于 骗 过 我 们 ， 我 们 人 类 也 越 来 越 善于 发 现 其 中 的 端倪 。 
ELIZA 在 20 世纪 80 年 代 的 BBS 时 代 骗 过 了 我 们 中 的 许多 人 ， 让 我 们 误 以 为 “她 ”是 一 位 帮助 
我 们 面 对 日 常生 活 的 心理 治疗 师 。 在 能 够 再 次 在 图 灵 测 试 中 欺骗 我 们 之 前 , 聊天 机 器 人 已 经 又 经 
过 了 数 十 年 的 研究 和 开发 。 


骗 我 一 次 ， 是 机 器 人 的 耻 每 ; PRAK, AŽ HIE, 




























































































一 一 轶 名 
最 近 ,Mitsuku 赢得 了 Loebner 挑战 , 这 是 一 项 使 用 图 灵 测 试 对 聊天 机 器 人 进行 排名 的 比赛 。 
对 话 聊天 机 器 人 目前 主要 用 于 学 术 研 究 、 娱 乐 (视频 游戏 ) 和 广告 。 
4. 营销 
营销 聊天 机 器 人 用 于 给 用 户 推销 产品 ， 并 诱 使 用 户 购买 。 越 来 越 多 的 视频 游戏 、 电 影 和 电视 
节目 在 网 站 上 通过 聊天 机 器 人 进行 推广 : ” 
m HBO 通过 “Aeden” 推 广 “ 西 部 世界 ” ; 
m 索尼 用 “Red Queen” 推 广 “ 生 化 危机 ”; 





























D 我 们 很 少 承认 虚拟 助手 和 搜索 引擎 影响 了 我 们 的 自由 意志 和 信仰 , 也 很 少 认识 到 它们 的 激励 措施 和 动机 
和 我 们 不 一 样 。 这 些 不 一 致 的 激励 措施 不 仅 存在 于 虚拟 助手 等 技术 中 ,还 存在 于 文化 本 身 。 如 果 你 有 兴 
趣 了 解 文化 和 技术 将 把 我 们 带 向 何方 ， 可 以 阅读 尤 瓦 尔 : 诺 亚 ， 赫 拉 利 的 《人 类 简 史 》 和 《未 来 简 史 六 























@ 详 见 标 题 为 “Mitsuku Chatbot” 的 网 页 。 
@) 详 见 标题 为 “Pandorabots AIML Chatbot Directory” 的 网 页 。 
@ 详 见 标题 为 “Loebner Prize” 的 维基 百科 词 条 。 








©) Justin Clegg 在 他 的 LinkedIn 帖子 中 列 出 了 更 多 的 例子 。 
© 详 见 2016 年 9 月 娱乐 周刊 。 
@ 详 见 2017 年 1 A IPG 媒体 实验 室 。 
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m 迪士尼 用 “Officer Judy Hopps” 推 广 “ 疯 狂 动物 城 ””; 

mE 环球 影 业 用 “Laura Barnes” 推 广 “ 解 除 好 友 ”; 

E 美国 动 视 用 “Lt. Reyes” E ERAR” 

一 些 虚 拟 助 手 也 在 扮演 营销 聊天 机 器 人 的 角色 ， 例 如 亚马逊 的 Alexa 和 谷歌 的 Google 
Assistant。 虽 然 它们 宣称 的 是 帮助 大 家 完成 添加 提醒 和 搜索 网 络 等 事情 ， 但 它们 总 是 优先 推送 产 

















品 或 服务 ， 而 






































不 是 通用 或 免费 的 信息 。 这 些 公司 的 业务 是 售卖 东西 一 一 亚马逊 是 直接 售卖 ， 谷歌 


























是 间接 售卖 。 

















它们 的 虚拟 助手 是 为 了 帮助 它们 的 母 公 司 〈 亚马逊 和 谷歌 ) 赚钱 而 设计 的 。 当 然 ， 














它们 也 想 帮 助 用 户 完成 任务 , 所 以 我 们 还 会 继续 使 用 它们 。 但 是 这 些 营 销 聊 天 机 器 人 的 优化 目标 











是 引导 用 户 购买 ， 而 不 是 快乐 或 幸福 。 











大 多 数 营 销 聊天 机 器 人 都 是 对 话 式 的 , 通过 为 用 户 带 来 娱乐 来 掩盖 它们 背后 的 动机 。 它 们 还 
可 以 运用 问答 技能 ， 以 销售 的 产品 知识 库 为 基础 。 为 了 模仿 电影 、 演 出 或 视频 游戏 中 的 角色 ， 聊 
天 机 器 人 会 使 用 文本 检索 技术 从 脚本 中 找 出 要 说 的 内 容 片 段 。 有 时 其 至 生成 的 模型 会 直接 基于 脚 
本 集 进行 训练 。 因 此 ， 营 销 聊天 机 器 人 通常 会 使 用 大 家 在 本 章 中 所 学 的 所 有 4 种 技术 。 





5. 社区 管理 






















































































社区 管理 是 聊天 机 器 人 特别 重要 的 应 用 ， 因 为 它 会 影响 社会 的 发 展 。 一 个 好 的 “牧羊 人 ”型 
聊天 机 器 人 可 以 引导 视频 游戏 社区 远离 混乱 ， 并 帮助 其 成 长 为 一 个 包容 的 、 合 作 的 世界 ,在 这 个 
世界 里 ， 每 个 人 都 能 享受 乐趣 ， 而 不 是 只 有 恶霸 和 巨 魔 。 一 个 糟糕 的 聊天 机 器 人 ， 如 Twitter 机 
器 人 Tay， 可 以 迅速 创造 一 种 充满 偏见 和 无 知 的 环境 。” 

当 聊天 机 器 人 “脱轨 ”时 ， 有 些 人 会 说 它们 只 是 社会 的 镜子 或 放大 镜 。 任 何 复杂 系统 与 现实 











世界 交互 时 常常 会 产生 意 想不到 的 后 果 。 但 是 ， 因 为 聊天 机 器 人 是 积极 的 参与 者 ， 由 像 你 我 这 样 





开发 者 推动 ， 

映 和 放大 我 们 
啊 ， 或 善 或 亚 
所 以 努力 开发 
律 ”是 不 够 的 








AN EK AAD 
THARE 
MIRE 







































































MUKA DAB EMAL “SESE” o HD aie AEE LP: A EIR 
最 好 的 和 最 坏 的 部 分 。 它 们 是 一 股 积极 的 力量 , 部 分 受到 它们 的 开发 者 和 训练 者 的 影 
。 因 为 监督 者 和 管理 者 无 法 百分之百 地 执行 任何 确保 聊天 机 器 人 “不 做 恶 ” 的 政策 ， 
善良 、 善 解 人 意 和 有 利于 社会 的 聊天 机 器 人 取决 于 开发 者 。 阿 西 莫 夫 的 “机 器 人 三 定 
。 只 有 开发 者 能 够 通过 智能 的 软件 和 巧妙 构建 的 数据 集 来 影响 机 器 人 的 进化 。 











亚利桑那 大 学 的 一 群 聪明 人 正在 考虑 使 用 他 们 的 聊天 机 器 人 构建 技能 来 使 人 类 免 遭 伤害 ， 伤 




















亚 的 超级 智能 AI， 而 是 人 类 自身 。 研 究 人 员 试图 模仿 洪 在 的 慌 怖 分 子 新 兵 的 行为 来 
怖 组 织 招 募 人 员 。 这 可 能 意味 着 有 一 天 聊天 机 器 人 通过 和 那些 想 要 给 世界 带 来 伤害 的 
RAX. 如 果 让 聊天 机 器 人 去 哄骗 恰当 的 人 或 组 织 ， 那 么 这 种 哄骗 就 是 一 件 好 事 。 
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羊 见 2016 年 6 月 科技 博客 Venture Beat. 





一 篇 关于 微软 Tay 聊天 机 器 人 短暂 “一 生 ” 的 文章 。 





2014 年 3 月 George Dvorski 在 Gizmodo 科技 博客 网 站 上 发 表 的 文章 “Why Asimov’s Three Laws of 
botics Can’t Protect Us”. 
EL 2015 年 10 月 的 Slate 杂志 文章 。 
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6. 客服 


客服 聊天 机 右 人 通常 是 大 家 访问 在 线 商 店 时 唯一 在 线 的 “人 ”。IBM 的 Watson, Shieh i) 
Lex 以 及 其 他 聊天 机 器 人 服务 通常 运行 在 后 台 ， 为 这 些 客户 助理 提供 支撑 。 它 们 通常 集成 了 问 
答 技能 ( 记得 Watson 的 Jeopardy 问答 练习 赛 吗 ? ) 和 虚拟 助手 技能 。 但 与 营销 聊天 机 器 人 不 
同 , 客服 聊天 机 器 人 的 回答 必须 有 理 有 据 。 知 识 库 作 为 线 上 回答 的 “依据 ?， 必 须 保 持 当前 状 
态 ， 使 客服 聊天 机 器 人 能 够 回答 有 关 订 单 或 产品 的 问题 ， 同 时 能 够 启动 诸如 下 订单 或 取消 订 
单 等 操作 。 

2016 年 ，Facebook Messenger 发 布 了 一 个 API， 供 企业 构建 客服 聊天 机 器 人 人。 谷歌 最 近 购 
SEY APILai 来 构建 它们 的 Dialogflow ( 对 话 流 ) 框架 ， 该 框架 通常 用 于 构建 客服 聊天 机 器 人 。 
同样 ,亚马逊 的 Lex 通 常用 于 为 在 亚马逊 上 销售 产品 的 零售 商 和 批发 商 构建 客户 服务 对 话 引 擎 。 
聊天 机 器 人 正在 迅速 成 为 时 尚 业 (Botty Hilfiger )、 快 餐 业 (TacoBot ) 和 鲜花 业 等 行业 的 重要 
销售 渠道 。 


7. 医疗 


现代 医疗 聊天 机 器 人 ， 如 Wysa 和 YourDOST， 已 经 用 于 帮助 失业 的 科技 工人 适应 他 们 的 新 
生活 。 医疗 聊天 机 器 人 必须 像 对 话 聊天 机 器 人 一 样 有 趣 。 它 们 必须 像 问答 聊天 机 器 人 一 样 提 供 
信息 。 它 们 必须 像 营销 聊天 机 器 人 一 样 具 有 说 服 力 。 如 果 它 们 受 利益 驱使 产生 利他 行为 , 那么 这 
些 聊 天 机 器 人 会 被 “目标 引导 ”， 利 用 它们 的 营销 和 感召 技能 让 大 家 重新 回来 参加 额外 的 课程 。 

大 家 可 能 不 会 将 Siri, Alexa 和 Allo 视 为 医疗 师 ， 但 它们 可 以 帮助 大 家 度 过 艰难 的 一 天 ， 
向 它们 询问 生命 的 意义 ， 大 家 一 定 会 得 到 一 个 哲学 或 幽默 的 回应 。 如 果 大 家 感到 诅 未， 请 让 
它们 给 你 讲 一 个 笑话 或 者 播放 一 些 积 极 欢快 的 音乐 。 它 们 具备 的 不 只 是 这 些小 技巧 ， 大 家 
不 用 怀疑 ， 这 些 复 杂 聊 天 机 需 人 的 开发 者 是 由 心理 学 家 指导 的 ， 旨 在 帮助 创造 一 种 增加 大 家 
快乐 和 幸福 感 的 体验 。 

正如 大 家 所 料 , 这 些 医疗 聊天 机 器 人 采用 混合 算法 ,该 算法 组 合 了 本 章 开 头 列 出 的 所 有 4 种 






















































































那么 所 谓 的 混合 方法 到 底 是 什么 样 的 呢 ? 

4 种 基本 的 聊天 机 器 人 方法 可 以 通过 多 种 方式 组 合 在 一 起 产生 有 用 的 聊天 机 器 人 。 多 种 不 同 
的 应 用 程序 都 使 用 了 所 有 4 种 基本 技术 。 混 合 型 聊天 机 器 人 之 间 的 主要 区 别 在 于 它们 如 何 组 合 这 4 
种 技术 ， 以 及 为 每 种 技术 设置 多 大 的 “权重 ”或 “分 量 ”。 

在 本 章 中 , 我 们 将 向 大 家 展示 如 何在 代码 中 显 式 地 协调 这 些 方法 ,从 而 帮助 大 家 构建 满足 需 
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求 的 聊天 机 器 人 。 我 们 在 这 里 使 用 的 混合 方法 将 允许 大 家 将 所 有 这 些 现实 世界 系统 的 特征 构建 到 
机 器 人 中 。 同 时 大 家 将 创建 一 个 “目标 函数 ”， 作 为 聊天 机 器 人 在 4 种 方法 之 间 进 行 选择 或 者 仅 
基于 某 种 方法 在 产生 的 所 有 可 能 回复 中 选择 的 目标 依据 。 

因此 , 我 们 接 下 来 逐个 深入 探讨 这 4 种 方法 。 对 于 每 一 种 方法 , 我 们 构建 一 个 仅 基于 我 们 所 
学 方法 的 聊天 机 器 人 。 而 在 本 章 最 后 我 们 将 向 大 家 展示 如 何 将 它们 混合 到 一 起 。 








12.2 模式 匹配 方法 


最 早 的 聊天 机 器 人 基于 模式 匹配 来 产生 回复 。 除了 检测 机 器 人 能 够 回复 的 语句 , 模式 还 可 以 
用 于 从 输入 文本 中 提取 信息 。 在 第 11 章 中 我 们 已 经 学 习 了 几 种 定义 信息 提取 模式 的 方法 。 

从 用 户 的 语句 中 提取 的 信息 可 以 用 于 填充 有 关 用 户 或 整个 世界 的 知识 库 。 这 些 信息 甚至 可 以 
直接 用 来 填充 对 某 些 语句 的 即时 回复 。 在 第 1 章 中 , 我 们 展示 了 一 个 简单 的 基于 模式 的 聊天 机 器 
A, 它 使 用 正则 表达 式 来 检测 问候 语 。 大 家 还 可 以 使 用 正则 表达 式 来 提取 人 类 用 户 所 问候 的 人 员 
姓名 。 这 有 助 于 为 机 器 人 提供 对 话 的 “上 下 文 ”， 而 这 些 上 下 文 可 用 于 产生 回复 。 

20 世纪 70 年 代 后 期 开发 的 ELIZA 在 这 方面 效果 惊人 , 令 许多 用 户 相信 “她 ”能 够 帮助 他 们 
应 对 心理 上 的 挑战 。ELIZA 基于 一 组 有 限 的 词 集 在 用 户 语句 中 进行 查找 。 该 算法 会 对 它 找 到 的 所 
有 词 进行 排名 ， 以 便 找到 一 个 在 用 户 语句 中 看 起 来 最 重要 的 词 。 然后， 触发 选中 与 该 词 相关 联 
的 预 设 响应 模板 。 这 些 响应 模板 经 过 精心 设计 ， 使 用 反 身 心理 学 来 模仿 治疗 师 的 同 理 心 和 包容 
心 。 触 发 回复 的 关键 词 会 在 回复 中 经 常 重复 使 用 ,使 其 听 起 来 好 像 ELIZA 理解 了 用 户 正 在 谈 
论 的 内 容 。 通 过 使 用 用 户 自己 的 语言 进行 回复 ， 机 器 人 帮助 建立 起 融洽 的 关系 并 使 用 户 相 信 它 
真 的 在 倾听 。 

ELIZA 教会 我 们 很 多 关于 如 何 使 用 自然 语言 与 人 类 交流 的 知识 。 也 许 最 重要 的 启示 是 ， 好 好 
倾听 ， 或 者 至 少 看 起 来 在 好 好 倾听 ， 这 是 聊天 机 器 人 成 功 的 关键 。 

1995 年 ，Richard Wallace 开始 构建 一 个 基于 模式 匹配 方法 的 通用 聊天 机 器 人 框架 。 在 1995 
年 至 2002 年 间 , 他 的 开发 者 社区 构建 了 人 工 智能 标记 语言 (AIML ) 来 定义 聊天 机 器 人 的 模式 和 
回复 。A.LIC.E. 正 是 利用 这 种 标记 语言 定义 自身 行为 的 聊天 机 器 人 的 开源 参考 实现 。 此 后 , AIML 
成 为 定义 聊天 机 器 人 和 虚拟 助手 配置 服务 ( 如 Pandorabots ) API 的 事实 上 的 开放 标准 。 微 软 公司 
的 Bot 框架 也 能 够 加 载 AIML 文件 来 定义 聊天 机 器 人 行为 。 但 是 ,其 他 一 些 框架 ( 如 谷歌 公司 的 
Dialog-Flow 和 亚马逊 的 Lex ) 并 不 支持 AIML 文件 的 导入 或 导出 。 

AIML 是 一 个 开放 标准 ， 意 味 着 有 对 应 的 说 明文 档 , 并 且 没 有 任何 局 限于 特定 公司 的 隐藏 专 
有 特性 。 开 源 Python 包 可 用 于 解析 和 执行 聊天 机 器 人 的 AIML 但 AIML 限制 了 可 以 定义 的 模式 
类 型 和 逻辑 结构 。 由 于 它 是 XML 的 一 种 ， 这 意味 着 基于 Python 构建 的 聊天 机 器 人 框架 (如 Will 
和 ChatterBot ) 通常 更 适合 构建 我 们 的 聊天 机 器 人 。 







































































































































































D Python 安装 : pip install aiml. 
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因为 我 们 已 经 有 很 多 基于 Python 包 的 NLP 工具 ， 只 需 直接 用 Python 和 正则 表达 式 或 glob 
模式 为 我 们 的 聊天 机 器 人 定义 处 理 逻辑 ,我们 就 可 以 构建 更 复杂 的 模式 匹配 聊天 机 器 人 。 在 
Aira, 我 们 开发 了 一 种 类 似 于 AIML 的 简单 glob 模式 语言 , 用 于 定义 我 们 的 模式 。 我 们 有 一 个 转 
换 程 序 ， 可 以 将 这 种 glob 模式 语言 转换 为 正则 表达 式 ， 从 而 在 任何 带 有 正则 表达 式 解 析 器 的 平 
台 上 运行 。 

Aira 在 aichat 这 个 聊天 机 器 人 框架 中 使 用 { {handlebars}} 作 为 我 们 的 模板 规范 。 
handlebars 模板 语言 支持 Java 和 Python 的 解释 器 ， 所 以 Aira 可 以 在 各 种 移动 和 服务 器 平台 上 使 
用 该 语言 。 并 且 handlebars 表达 式 能 够 包含 用 于 创建 聊天 机 器 人 复杂 行为 的 过 滤器 和 条 件 语句 。 
如 果 大 家 想 在 聊天 机 器 人 模板 中 提供 更 简单 和 Python 风格 的 东西 ， 那 么 可 以 使 用 Python 3.6 的 
f-strings 语法 。 如 果 大 家 还 没有 使 用 Python 3.6, 那么 可 以 使 用 str.format (template, ** 
locals () ) 来 泻 染 模板 ， 其 效果 和 fstrings 一 模 一 样 。 











12.2.1 基于 AIML 的 模式 匹配 聊天 机 器 人 
基于 AIML (v2.0 ), 定义 第 1 章 中 问候 聊天 机 器 人 的 模板 ， 如 代码 清单 12-1 所 示 。 





代码 清单 12-1 nlpia/book/examples/greeting.v2.aiml 


<?xml version="1.0" encoding="UTF-8"?><aiml version="2.0"> 
<category> 
<pattern>HI</pattern> 
<template>Hi!</template> 
</category> 
<category> 
<pattern>[HELLO HI YO YOH YO'] [ROSA ROSE CHATTY CHATBOT BOT CHATTERBOT]< 
/pattern> 
<template>Hi , How are you?</template> 
</category> 
<category> 
<pattern>[HELLO HI YO YOH YO' 'SUP SUP OK HEY] [HAL YOU U YALL Y'ALL YOUS 
YOUSE]</pattern> 
<template>Good one.</template> 
</category> 
</aiml> 


我 们 使 用 了 AIML 2.0 (由 Bot Libre 提供 ) 的 一 些 新 特性 ， 使 XML 更 加 紧凑 和 可 读 。 方 括 
号 允许 大 家 在 一 行 中 定义 同一 个 词 的 其 他 拼写 形式 。 

遗憾 的 是 ，AIML (PyAiml、aiml 和 aiml bot ) 的 Python 解释 器 不 支持 第 2 版 AIML 
规范 。 与 最 初 AIML 1.0 规范 兼容 的 Python 3 AIML 解释 器 是 aiml bot, 在 aiml bot 中 , fg 
析 器 能 入 在 Bot () 类 中 ， 该 类 被 设计 成 将 “大 脑 ” 常 驻 内 存 中 ， 以 帮助 聊天 机 器 人 快速 响应 。 




















® glob 模式 和 globstar 模式 是 用 于 在 DOS, Bash 或 几乎 任何 其 他 shel 中 查找 文件 的 简化 正则 表达 式 。 在 
glob 模式 中 ， 星 号 (* ) 用 于 表示 任意 数量 的 任何 字符 。 所 以 * .txt 将 匹配 任何 末尾 有 “.txt” 的 文件 名 。 
© 详 见 2015 年 8 H NanoDano 的 文章 “AI Chat Bot in Python with AIML”。 
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这 个 “大 脑 ” 或 者 是 内 核 ， 把 所 有 AML 模式 和 模板 都 保存 在 单个 数据 结构 中 ， 类 似 于 Python 
字典 ， 将 每 个 模式 映射 到 对 应 的 响应 模板 。 


1. AIML 1.0 


AIML 是 一 种 基于 XML 标准 的 声明 式 语 言 ， 它 规定 了 可 以 在 机 器 人 中 使 用 的 编程 构想 和 数 
据 结构 。 但 是 基于 AML 的 聊天 机 器 人 还 不 是 一 个 完整 的 系统 。 我 们 还 需要 利用 前 面 学 到 的 所 有 
其 他 的 工具 来 扩充 AIML 聊天 机 器 人 。 

AIML 的 一 个 限制 是 我 们 可 以 用 来 匹配 和 响应 的 模式 种 类 。AIML 内 核 〈 模式 匹配 器 ) 仅 在 
输入 的 文本 与 开发 人 员 硬 编码 的 模式 匹配 时 才 响 应 。 好 消息 是 ，AIML 模式 可 以 包含 通配符 
一 种 匹配 任意 词 序列 的 符号 。 但 是 在 模式 中 确实 包含 的 词 必须 精确 匹配 。 模 糊 匹 配 、 表 情 符号 、 
内 部 标点 符号 、 录 入 错误 或 拼写 错误 等 不 会 自动 匹配 。 在 AML 中 ， 必 须 使 用 </ srai> 标 签 手 
工 定义 同义词 ,一 次 一 个 。 回 想 一 下 在 第 2 章 中 以 编程 方式 完成 的 所 有 词 干 和 词 形 还 原 。 在 AIML 
中 实现 上 述 功能 将 是 一 件 非 常 烦琐 的 工作 。 虽然 我 们 在 这 里 展示 了 如 何在 AIML 中 实现 同义词 和 
录入 匹配 功能 , 但 在 本 章 结尾 构建 的 混合 型 聊天 机 器 人 将 通过 对 输入 到 聊天 机 器 人 的 所 有 文本 进 
行 处 理 来 避 开 上 述 问题 。 

大 家 需要 知道 的 AIML <pattern> 的 另 一 个 基本 限制 是 它 只 能 有 一 个 通配符 。 更 具 表 现 
力 的 模式 匹配 语言 ( 如 正则 表达 式 ) 可 以 提供 创建 有 趣 聊 天 机 器 人 的 更 多 能 力 。 目前 ， 基 于 
AIML ,我 们 只 使 用 “HELLO ROSA *” 等 模式 来 匹配 输入 文本 ,例如 “Hello Rosa, you wonderful 
chatbot!” 




















































































































注意 语言 的 可 读 性 对 于 开发 人 员 的 工作 效率 至 关 重 要 。 无 论 是 构建 聊天 机 器 人 还 是 Web 应 用 程 
Pe, 优秀 的 语言 都 可 以 带 来 巨大 的 差异 。 


我 们 不 会 花 太 多 时 间 来 帮助 大 家 理解 和 编写 AIML, 但 我 们 希望 大 家 能 够 导入 和 定制 一 些 可 
用 的 (和 免费 的 ) 开源 AIML 脚本 。 通过 少量 的 前 期 工作 ， 大 家 就 可 以 按照 AML 脚本 为 聊天 
机 器 人 提供 一 些 基本 功能 。 

在 下 一 节 中 ， 我 们 将 展示 如 何在 聊天 机 器 人 中 创建 和 加 载 AIML 文件 并 使 用 它 生成 回复 。 


2. Python AIML 解释 器 

接 下 来 我 们 在 代码 清单 12-1 的 基础 上 一 步 一 步 构建 复杂 的 AIML 脚本 ， 并 展示 如 何在 
Python 程序 中 加 载 和 运行 它 。 代 码 清单 12-2 给 出 的 是 一 个 简单 的 AIML 文件 ， 它 可 以 识别 两 
个 词 序列 :“Hello Rosa” 和 “Hello Troll”， 聊 天 机 器 人 分 别 以 不 同 的 方式 回复 ， 就 像 前 面 章 节 
所 展示 的 一 样 。 
























































D 在 表达 能 力 方 面 很 难 与 现代 编程 语言 (如 Python ) 竞争 。 
© 用 Google 搜索 “AIML 1.0 files” 或 者 “AIML brain dumps”， 并 查看 诸如 Chatterbots 和 Pandorabots 之 类 
的 AIML 资源 。 
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代码 清单 12-2 nlpia/nlpia/data/greeting step1.aiml 


<?xml version="1.0" encoding="UTF-8"?><aiml version="1.0.1"> 


<category> 
<pattern>HELLO ROSA </pattern> 
<template>Hi there!</template> 
</category> 
<category> 
<pattern>HELLO TROLL </pattern> 
<template>Good one, human.</template> 
</category> 


</aiml> 


注意 在 AIML 1.0 中 ， 所 有 模式 必须 全 大 写 。 


我 们 已 经 对 聊天 机 器 人 进行 了 设置 , 使 其 能 以 不 同 的 方式 回复 两 种 不 同 的 问候 : ALBA Ik 
和 不 礼貌 的 方式 。 现 在 我 们 使 用 Python 中 的 aiml_bot 包 来 处 理 AIML 1.0 文件 。 如 果 已 安装 
nlpia 包 ， 则 可 以 使 用 代码 清单 12-3 中 的 代码 加 载 这 些 示例 。 如 果 想 尝试 自己 编写 的 AIML X 
件 ， 则 需要 调整 路 径 learn=path 来 指向 目标 文件 。 








代码 清单 12-3 nlpia/book/examples/ch12.py 


>>> import os 
>>> from nlpia.constants import DATA_PATH 
>>> import aiml_bot 


>>> bot = aiml_bot.Bot ( 

ate, learn=os.path.join(DATA_PATH, 'greeting_stepl.aiml') ) 
Loading /Users/hobs/src/nlpia/nlpia/data/greeting_stepl.aiml... 
done (0.00 seconds) 

>>> bot.respond("Hello Rosa,") 

"Hi there!' 

>>> bot.respond("hello !!!troll!!!") 

"Good one, human.' 


程序 看 起 来 运行 状况 良好 。 在 进行 模式 匹配 时 , AIML 规范 巧妙 地 忽略 了 标点 符号 和 大 小 写 。 
但 是 AIML 1.0 规范 只 规范 化 模式 的 标点 符号 和 词 之 间 的 空白 符 ， 而 不 是 词 内 部 。 它 无 法 处 
理 同义词 、 拼 写 错误 、 带 连 字符 的 词 或 复合 词 ， 如 代码 清单 12-4 所 示 。 








代码 清单 12-4 nlpia/nlpia/book/examples/ch12.py 


>>> bot.respond("Helo Rosa") 

WARNING: No match found for input: Helo Rosa 

1 1 

>>> bot.respond("Hello Ro-sa") 

WARNING: No match found for input: Hello Ro-sa 


可 以 使 用 模板 中 的 <srai> 标 签 和 星 号 (* )， 将 上 述 多 个 模式 链接 到 同一 个 响应 模板 ， 以 解 





12.2 ”模式 匹配 方法 331 


决 大 部 分 匹配 遗漏 的 问题 。 我 们 将 这 些 模式 视 为 “Hello” 的 同义词 ， 即 使 它们 可 能 是 拼写 错误 
或 完全 不 同 的 词 ， 如 代码 清单 12-5 所 示 。 


代码 清单 12-5 nlpia/data/greeting_step2.aiml 


























<category><pattern>HELO * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HI * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HIYA * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HYA * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HY * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>HEY * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>WHATS UP * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 
<category><pattern>WHAT IS UP * </pattern><template><srai>HELLO <star/> 
</srai></template></category> 











注意 如 果 大 家 正在 编写 自己 的 AML 文件 , 不 要 忘记 在 开头 和 结尾 加 上 <aiml> 标 签 。 为 简洁 起 见 

我 们 在 上 述 示例 AIML 代码 中 省 略 了 该 标签 。 

一 旦 加 载 了 附加 的 AIML ， 机 器 人 就 可 以 识别 出 “Hello” 的 几 种 不 同 的 说 法 和 错误 拼写 形式 ， 
如 代码 清单 12-6 所 示 。 





代码 清单 12-6 nlpia/nlpia/book/examples/ch12.py 


>>> bot.learn(os.path.join(DATA_PATH， 'greeting_step2.aiml1') ) 
>>> bot.respond("Hey Rosa") 


"Hi there!' 

>>> bot.respond("Hi Rosa") 
"Hi there!' 

>>> bot.respond("Helo Rosa") 
"Hi there!! 


>>> bot.respond("hello **troll** !!!") 
"Good one, human.' 


在 AIML 2.0 中 ,可 以 使 用 方 括号 列表 来 指定 选择 随机 响应 模板 。 而 在 AIML 1.0 中 , 使 用 <1i> 
标签 来 执行 此 操作 。<1i> 标 签 仅 在 <condition> 或 <random> 标 签 内 部 使 用 。 大 家 可 以 使 用 
<zandom> 标 签 来 帮助 机 器 人 在 回复 问候 时 显得 更 有 创意 一 点 儿 ， 人 参见 代码 清单 12-7。 








代码 清单 12-7 nipia/nipia/data/greeting_step3.aiml 





<category><pattern>HELLO ROSA </pattern><template> 
<random> 
<li>Hi Human!</1li> 
<li>Hello friend</li> 
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<li>Hi pal</li> 
<1li>Hi!</li> 
<li>Hello!</1li> 
<li>Hello to you too!</1i> 
<li>Greetings Earthling ;)</li> 
<li>Hey you :)</li> 
<li>Hey you!</1li> 
</random></template> 
</category> 
<category><pattern>HELLO TROLL </pattern><template> 
<random> 
<li>Good one, Human.</1li> 
<li>Good one.</li> 
<li>Nice one, Human.</1li> 
<li>Nice one.</li> 
<li>Clever.</1li> 
<1li>:)</li> 
</random></template> 
</category> 


现在 聊天 机 器 人 看 起 来 不 那么 机 械 ( 至 少 在 谈话 开始 的 时 候 ) 了 ， 如 代码 清单 12-8 所 示 。 





代码 清单 12-8 nlpia/nlpia/book/examples/ch12.py 





>>> bot.learn(os.path.join(DATA_PATH, 'greeting_step3.aiml')) 
>>> bot.respond("Hey Rosa") 

"Hello friend' 
>> bot.respond("Hey Rosa") 
Hey you :)' 
>> bot.respond("Hey Rosa") 
Hi Human!' 


注意 大 家 获得 的 回复 顺序 可 能 和 上 述 代 码 运行 的 结果 并 不 一 致 。 这 就 是 <random> 标 签 的 意义 。 


每 次 匹配 模式 时 ， 它 都 会 从 列表 中 随机 选择 一 个 回复 。 无 法 在 aiml bot 中 设置 随机 种 子 , 但 这 有 
HTAR (有 人 拉 取 请 求 吗 ? )。 








大 家 可 以 在 单独 的 <category> 标 签 中 为 “Hi” 和 “Rosa” 定 义 自 己 要 替换 的 拼写 ， 也 可 以 
为 模板 定义 不 同 的 同义词 组 , 并 根据 问候 类 型 区 分 回复 列表 。 例如 , 我 们 可 以 定义 问候 语 的 模式 ， 
例如 “SUP” 和 “WUSSUP BRO”, 然后 以 类 似 的 用 语 或 类 似 的 亲密 程度 和 非 正 式 程度 进行 回复 。 

AML 其 至 还 有 用 于 将 字符 串 捕 获 到 命名 变量 的 标签 ( 类 似 于 正则 表达 式 中 的 命名 组 )。 
AIML 中 的 状态 称 为 topic。AIML 定义 了 多 种 基于 大 家 在 AIML 文件 中 定义 的 任何 变量 来 定义 
条 件 语 名 的 方法 。 如 果 大 家 正在 使 用 AIML ,那么 可 以 尝试 一 人 下。 理解 语法 和 模式 匹配 聊天 机 器 
人 的 工作 原理 是 一 个 很 好 的 练习 。 但 我 们 将 继续 使 用 更 具 表 现 力 的 语言 , 如 正则 表达 式 和 Python 
来 构建 聊天 机 器 人 。 这 将 允许 大 家 使 用 更 多 在 前 面 章节 中 学 到 的 工具 ， 如 词 形 归 并 和 词 干 还 原 ， 
来 处 理 同义词 和 拼写 错误 ( 见 第 2 章 )。 如 果 在 聊天 机 器 人 中 使 用 AIML， 并 且 经 过 词 形 归并 和 
词 干 还 原 等 预 处 理 阶段 ， 那 么 可 能 需要 修改 AIML 模板 来 捕 提 这 些 词 干 和 词 形 。 

大 家 可 能 认为 AML 看 起 来 有 点 儿 复 杂 , 其 实 好 多 人 都 这 么 认为 。 亚马逊 的 Lex 使 用 简化 版 
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的 AIML， 可 以 通过 ISON 文件 导出 导入 。 初 创 企 业 APLai 开发 了 一 种 非常 直观 的 对 话 规范 ， 谷 
歌 买 下 了 其 使 用 权 ， 将 其 集成 到 谷歌 云 服 务 中 ， 并 重新 命名 为 Dialogflow。Dialogflow 规范 也 可 
以 通过 ISON 文件 导出 导入 ， 但 这 些 文件 与 AIML 或 亚马逊 的 Lex 格式 并 不 兼容 。 

如 果 大 家 认为 所 有 这 些 不 兼容 的 API 应 该 整合 到 一 个 开放 规范 (如 AIML ) 中 , 那么 可 能 会 愿意 为 
aichat 项 目 和 AI 响应 规范 ( AI Response Specification, AIRS ) 语言 的 开发 做 贡献 。Aira 和 Do More 
Foundation 正在 支持 AIRS, 以 便 我 们 的 用 户 更 容易 彼此 分 享 他 们 的 创作 (互动 小 说 、 鼓 励 、 培 训 课程 、 
虚拟 旅游 等 对 话 )。aichat 应 用 是 Python 版 AIRS 解释 器 的 参考 实现 ， 具 有 Web 用 户 体验 。 

下 面 是 典型 的 AIRS 的 样子 。 它 在 二 维 表格 的 一 行 中 ,定义 了 聊天 机 器 人 需要 对 用 户 指令 做 
出 响应 的 4 部 分 信息 。 此 表 可 以 通过 CSV、JSON 或 普通 Python 列表 导出 /导入 : 

>>> airas_spec = [ 

["Hi {name}","Hi {username} how are you?", "ROOT", "GREETING"], 
["What is your name?", 


"Hi {username} how are you?", "ROOT", "GREETING"], 
] 


AIRS 的 第 一 列 定义 了 需要 从 用 户 话语 或 文本 消息 中 提取 的 模式 和 任意 参数 。 第 二 列 定 义 
了 我 们 希望 聊天 机 融 人 说 出 (或 文本 显示 ) 的 回复 ， 通 常 以 一 种 可 以 使 用 聊天 机 需 人 的 数据 上 
下 文中 的 变量 填充 的 模板 形式 。 除 了 做 出 回复 ， 它 还 可 以 包含 特殊 的 关键 词 来 触发 聊天 机 需 人 
的 动作 。 

最 后 两 列 用 于 维护 聊天 机 器 人 的 状态 或 上 下 文 。 每 当 聊 天 机 器 人 被 模式 匹配 触发 时 ,如 果 它 
想 要 在 该 状态 下 产生 不 同 的 行为 ， 例 如 ， 跟 进 其 他 问题 或 信息 ， 它 可 以 转换 到 新 的 状态 。 因 此 ， 
行 尾 的 两 列 就 是 告诉 聊天 机 融 人 它 应 该 监听 的 这 些 模式 的 状态 , 以 及 它 应 该 在 完成 模板 中 指定 的 
响应 或 操作 后 转换 到 的 状态 。 这 些 源 状态 和 目标 状态 名 称 生成 了 一 张 图 ， 如 图 12-2 所 示 ， 它 控 
制 着 聊天 机 器 人 的 行为 。 


机 器 人 动作 “你 能 重复 一 次 吗 ?” 
用 户 动作 
状态 名 称 



















































































“我 需要 Lyft 打 车 。” 





“{request_lyft} 
你 的 Lyft 司 机 ， 
{lyft_name}, 应 该 在 
{lyft_eta} 
时 间 内 到 达 。” 





“你 叫 什么 名 字 ?” 








“{cancel_lyft} 好 的 ， 取消 你 的 Lyft 打 车 请 求 。” 





图 12-2 ”状态 ( ETX) 管理 
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谷歌 的 Dialogflow 和 亚马逊 的 Lex 是 符合 aichat 模式 匹配 聊天 机 器 人 规范 实现 的 更 具 可 扩 - 
展 性 的 版 本 。 但 对 于 很 多 应 用 场景 ， 它 们 变 得 比 原先 更 加 复杂 。 开 源 项 目 aichat 试图 提供 一 种 更 直 
观 的 方式 来 设计 、 可 视 化 和 测试 聊天 机 器 人 。 如 果 想 了 解 有 关 聊 天 机 器 人 的 这 种 模式 匹配 方法 的 
更 多 信息 ， 请 查看 nlpia 中 的 aichat 或 混合 型 聊天 机 器 人 。 如 果 想 使 用 这 种 方法 在 生产 系统 上 实 
现 大 型 聊天 机 器 人 ， 和 谷歌 的 Dialogflow (之 前 称 为 app.ai ) 和 亚马逊 的 Lex 框架 都 有 带 大 量 文档 
的 示例 程序 供 大 家 在 上 面 继续 开发 。 虽 然 基 于 这 两 个 系统 都 可 以 部 署 免费 的 聊天 机 器 人 , 但 大 家 
很 快 就 会 受 限 于 它们 这 种 开发 方式 ， 所 以 大 家 可 能 最 好 帮助 我 们 开发 aichat。 
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在 Aira 开发 聊天 机 器 人 来 帮助 视 障 人 士 的 同时 ， 我 们 也 开发 了 一 些 可 视 化 工具 来 分 析 和 设 
计 其 用 户 体验 。 状态 之 间 的 连接 以 及 产生 这 些 连 接 的 模式 构成 的 网 络 视图 为 新 模式 和 新 状态 的 发 
现 带 来 了 机 会 。 网 络 视图 允许 我 们 在 大 脑 中 “运行 ”对 话 过 程 ， 就 像 在 大 脑 中 运行 若干 行 Python 
代码 一 样 。 网 络 视图 帮助 我 们 通过 乌 欧 视图 在 对 话 树 ( 实际 上 是 网 络 或 图 ) 的 迷宫 中 导航 ， 避 免 
对 话 陷入 死胡同 和 死 循 环 。 

不 妨 想 一 想 ， 模 式 匹配 聊天 机 器 人 的 模式 和 回复 定义 了 一 个 网 络 ( 图 )。 该 网 络 中 的 节点 表 
示 状 态 。 网 络 中 的 边 表示 模式 匹配 触发 吉 ， 这 些 触发 吉 使 聊天 机 器 人 在 转换 到 下 一 个 状态 〈 节 点 ) 
之 前 输出 某 些 内 容 。 如 果 绘 制 一 些 AIRS 模式 和 回复 的 状态 转换 图 ， 可 能 会 得 到 类 似 于 如 图 12-2 
所 示 的 内 容 。 

这 可 以 帮助 大 家 通过 在 对 话 规范 中 完善 或 添加 模式 来 发 现 对 话 中 可 能 要 处 理 的 死胡同 或 死 
循环 。Aira 正在 开发 可 视 化 工具 ， 通 过 aichat 项 目 将 AIRS 转换 为 这 些 图 表 ( 如 图 12-2 所 示 )。 
如 果 大 家 了 解 Javascript 和 D3 ， 那 么 它们 可 能 需要 你 们 的 帮助 。 

现在 是 时 候 了 解 另 一 种 建立 聊天 机 器 人 的 基础 方法 了 。 


12.3 ”知识 方法 


AL.IC.E. 和 其 他 AIML 聊天 机 器 人 完全 依赖 模式 匹配 。 在 构想 AIML 之 前 ， 第 一 个 流行 的 
聊天 机 器 人 ELIZA 也 使 用 了 模式 匹配 和 模板 。 但 是 这 些 聊天 机 器 人 的 开发 人 员 在 模式 和 模板 中 
硬 编码 了 回复 的 逻辑 。 硬 编码 不 能 很 好 地 “扩展 ”， 这 种 扩展 不 是 从 处 理性 能 而 是 从 人 力 的 角度 
来 说 的 。 以 这 种 方式 构建 的 聊天 机 器 人 的 复杂 性 随 着 投入 人 力 的 增加 呈 线 性 增长 。 事实 上 ， 随 着 
这 个 聊天 机 器 人 的 复杂 性 不 断 增长 , 我们 开始 看 到 自己 努力 的 回报 却 在 递减 ,这 是 因为 随 着 “ 活 
动 组 件 ” 之 间 交 互 的 增加 ， 聊 天 机 器 人 的 行为 变 得 越 来 越 难以 预测 和 调试 。 

如 今 , 数据 驱动 编程 是 应 对 大 多 数 复杂 编程 挑战 的 现代 方法 。 如 何 使 用 数据 对 聊天 机 器 人 进 
行 编程 ? 在 上 一 章 中 , 我 们 学 习 了 如 何 使 用 信息 提取 从 自然 语言 文本 ( 非 结 构 化 数据 ) 中 创建 结 
构 化 知识 。 仅 仅 基 于 读 和 文本， 就 可 以 构建 关系 或 事实 组 成 的 网 络 ， 这 些 文本 可 以 是 维基 百科 文 
章 ， 甚 至 是 大 家 自己 的 个 人 日 志 。 在 本 节 中 , 我 们 将 学 习 如 何 将 有 关 世 界 (或 我 们 的 生活 ) 的 知 
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识 融 人 聊天 机 器 人 的 技能 包 中 。 基 于 事物 之 间 的 这 种 逻辑 关系 网 络 产生 的 知识 图 谱 或 知识 库 , 可 
以 驱动 聊天 机 器 人 进行 回复 。 

通过 逻辑 推理 来 处 理 知识 图 谱 , 可 以 回答 包含 在 知识 库 中 的 世界 相关 的 问题 。 然 后 可 以 使 用 
推理 答案 填写 模板 化 回复 中 的 变量 ， 从 而 创建 自然 语言 答案 。 问 答 系 统 ， 例 如 IBM 在 Jeopardy 
获胜 的 “ 沃 森 ”( Watson )， 最 初 也 是 以 这 种 方式 构建 的 ， 尽 管 最 近 的 版 本 几乎 必然 也 采用 了 搜索 
或 信息 检索 技术 。 知 识 图谱 可 以 说 是 将 聊天 机 器 人 带 到 现实 世界 的 “根本 ”。 

基于 知识 库 的 方法 不 仅 限于 回答 关于 世界 的 问题 。 知 识 库 也 可 以 使 用 正在 进行 的 与 对 话 相关 
的 事实 进行 实时 填充 。 这 可 以 让 聊天 机 器 人 快速 了 解 对 话 目标 以 及 他 们 的 喜好 。 

如 果 在 知识 建 模 上 更 深 一 步 ， 可 以 构建 聊天 机 器 人 的 对 话 目标 关于 对 世界 看 法 的 知识 子 图 。 
如 果 大 家 熟悉 数据 库 设计 , 则 可 以 将 该 子 图 视 为 外 部 数据 库 一 一 这 里 指 知识 库 的 部 分 镜像 。 这 可 
以 是 仅 包 含 最 新 知识 的 临时 “缓存 ”， 也 可 以 是 聊天 机 器 人 学 习 到 的 〈 和 未 学 习 到 的 ) 有 关 其 他 
对 话 参与 者 的 所 有 知识 的 持久 滚动 日 志 。 对 话 参与 者 的 每 条 语句 都 可 以 用 来 填充 “心智 理论 ”， 
这 是 一 个 关于 每 个 发 言 者 对 世界 的 看 法 的 知识 库 。 这 和 构建 用 于 提取 对 话 参与 者 称呼 彼此 或 聊天 
机 器 人 时 所 用 昵称 的 模式 一 样 简单 ， 就 像 我 们 在 第 1 章 中 所 做 的 那样 。 

如 果 大 家 仔细 想 想 ， 人 类 似乎 会 以 更 复杂 的 方式 参与 对 话 ， 而 不 仅仅 是 像 刚 创建 的 AIML H 
天 机 器 人 一 样 只 是 重复 预 设 的 回复 。 人 类 的 大 脑 使 我 们 可 以 思考 对 话 目标 说 话 的 逻辑 , 并 尝试 从 
自己 对 现实 世界 的 逻辑 和 彼此 的 记忆 中 推断 出 某 些 东西 ,我 们 可 能 需要 做 出 一 系列 推理 和 假设 来 
理解 和 回复 一 条 语句 。 因 此 ， 为 聊天 机 器 人 添加 逻辑 和 基础 知识 可 能 会 使 其 更 像 人 ,或 者 至 少 更 
有 逻辑 性 。 

如 果 回 答 问 题 所 需 的 知识 属于 可 以 从 开源 数据 库 获 得 的 一 些 通用 的 知识 库 , 那么 这 种 聊天 机 
器 人 的 知识 方法 适用 于 问答 聊天 机 器 人 。 可 以 在 聊天 机 器 人 中 使 用 的 一 些 开放 知识 库 包 括 : 

m Wikidata ( 包括 Freebase ) ”; 

E Open Mind Common Sense ( ConceptNet ) °; 

z eve. 

m YAGO”; 

a DBpedia” o 

所 以 , 大 家 要 做 的 就 是 查询 知识 库 ， 提 取 需 要 在 对 用 户 语 句 的 回复 中 填充 的 事实 。 如 果 用 户 
提出 知识 库 可 能 包含 的 事实 问题 ,那么 可 以 将 他 们 的 自然 语言 问题 (例如 “你 是 谁 ? ”或 “美国 
第 50 个 州 是 什么 ? ”) 转化 成 知识 库 查 询 ， 直接 在 知识 库 中 检索 他 们 寻找 的 答案 。 这 就 是 Google 
搜索 使 用 Freebase 和 其 他 知识 库 组 合 在 一 起 创建 知识 图 谱 时 所 做 的 事情 。 



































































































































































































































详 见 维基 百科 上 标题 为 “Welcome to Wikidata” 的 网 页 。 

详 见 维基 百科 上 标题 为 “API : commonsense/conceptnetS Wiki: GitHub” 的 网 页 。 
详 见 维基 百科 上 标题 为 “Cyc” 的 网 页 。 

详 见 维基 百科 上 标题 为 “YAGO (database )” 的 网 页 。 

详 见 维基 百科 上 标题 为 “DBpedia” 的 网 页 。 
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我 们 可 以 使 用 第 11 章 中 的 词 模式 匹配 技能 从 用 户 语句 中 提取 问题 的 关键 部 分 ， 例 如 命名 实 
体 或 用 户 对 话 要 查找 的 关系 信息 。 在 一 个 句子 的 开头 查找 关键 问题 词 , 例如 “who”“what”“when” 
“where"“why” 和 “is"， 以 便 对 问题 类 型 进行 分 类 。 这 将 有 助 于 聊天 机 器 人 确定 从 知识 图 谱 要 
检索 的 知识 类 型 ( 节点 或 命名 实体 类 型 )。 

Quepy 是 一 种 自然 语言 查询 编译 器 ,可 以 使 用 这 些 技术 生成 知识 库 和 数据 库 查 询 。 针 对 RDF 
三 元 组 知识 图 谱 的 等 价 SQL 称 为 SPARQL。” 
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男 一 种 “倾听 ”用 户 的 数据 驱动 方法 是 在 历史 对 话 日 志 中 搜索 之 前 的 语句 。 这 类 似 于 人 类 倾 
听 者 尝试 回想 之 前 他 们 在 哪里 听 到 过 该 问题 、 句 子 或 词 。 机 融 人 不 仅 可 以 搜索 自己 的 对 话 日 志 ， 
还 可 以 搜索 任何 人 与 人 之 间 的 对 话 记录 、 机 器 人 和 人 之 间 的 对 话 记录 , 甚至 是 机 器 人 和 机 器 人 之 
间 的 对 话 记 录 。 但 和 以 往 一 样 ， 脏 数据 进 脏 数据 出 。 因 此 ,我 们 应 该 清理 并 整合 历史 对 话 的 数据 
库 ， 以 确保 机 器 人 搜索 ( 并 模仿 ) 高 质量 的 对 话 。 我 们 希望 人 类 享受 与 机 器 人 之 间 的 对 话 。 

基于 搜索 的 聊天 机 器 人 应 确保 其 对 话 数 据 库 包含 令 人 愉快 或 有 用 的 对 话 , 并 且 它 们 应 该 是 设 
定 个 性 的 机 器 人 预期 交流 的 一 些 主题 。 对 于 基于 搜索 的 机 器 人 , 一 些 好 的 对 话 资源 例子 包括 电影 
对 话 脚本 、IRC 频道 上 的 客户 服务 日 志 (用户 满意 的 部 分 ) 和 人 类 之 间 的 直接 消息 互动 ( 如 果 那 
些 人 愿意 与 我 们 分 享 的 话 ) 如 果 没 有 获得 想 要 使 用 的 对 话 中 涉及 的 所 有 人 的 书面 同意 ， 请 不 要 
使 用 大 家 自己 的 电子 邮件 或 短 消 息 日 志 。 

如 果 决 定 将 机 器 人 之 间 的 对 话 合并 到 语料库 中 , 那么 请 千 万 小 心 。 我 们 的 数据 库 中 只 需要 那 
些 至 少 有 一 个 人 看 起 来 对 交互 感到 满意 的 语句 , 哪怕 只 是 继续 对 话 。 除 非 是 真正 非常 智能 的 聊天 
Dar A, AMARA DL AZ TAT TE o 

基于 搜索 的 聊天 机 器 人 可 以 使 用 历史 对 话 日 志 来 查找 和 机 器 人 的 交谈 对 象 刚刚 说 的 话 类 似 
的 语句 示例 。 为 了 便于 搜索 ， 应 该 把 对 话语 料 库 组 织 成 语句 -回复 对 。 如 果 回 复 作为 被 回复 的 语 
A, 那么 该 回复 应 该 在 数据 库 中 出 现 两 次 , 一 次 作为 回复 , 然后 再 作为 促使 回复 的 语句 。 数 据 库 
表 中 的 回复 列 随后 可 作为 “语句 ”( 或 促使 ) 列 的 语句 的 回复 依据 。 






















































































12.4.1 上 下 文 挑战 


最 简单 的 方法 是 一 字 不 差 地 重复 使 用 回复 ,不 做 任何 调整 。 如 果 对 于 被 回复 的 语句 ， 机 器 人 
的 回复 能 够 较 好 地 在 语义 (意思 ) 层面 匹配 , 那么 这 是 一 个 不 错 的 方法 。 但 即使 用 户 说 过 的 所 有 
话 都 可 以 在 数据 库 中 找到 , 机 器 人 也 还 是 会 呈现 出 对 话 数据 库 中 产生 回复 的 所 有 用 户 的 风格 。 如 
果 各 种 用 户 的 回复 风格 一 致 , 那么 这 是 一 件 好 事 。 但 是 ,如 果 想 要 回复 的 语句 取决 于 对 话 中 较 长 









































D 详 见 标题 为 “Welcome to Quepy’s documentation! 一 Quepy 0.1 documentation” 的 网 页 。 
© 详 见 标题 为 “SPARQL Query Language for RDF” 的 网 页 。 
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的 上 下 文 ， 或 者 从 对 话语 料 库 创 建 以 来 已 发 生变 化 的 某 些 现实 世界 的 情况 ， 则 可 能 会 出 现 问题 。 

例如 ， 如 果 有 人 问 聊天 机 器 人 “现在 几 点 ? “， 那 么 聊天 机 器 人 不 应 该 重复 使 用 数据 库 中 用 
于 回答 最 匹配 语句 的 人 的 回复 。 只 有 当 提问 的 时 间 和 记录 的 匹配 对 话语 名 时 间 一 致 时 , 才 会 有 用 。 
该 时 间 信 息 称 为 上 下 文 或 状态 , 应 与 语句 的 自然 语言 文本 一 起 记录 和 匹配 。 当 语句 的 语义 指向 上 
下 文 或 机 器 人 知识 库 中 记录 的 某 些 变化 的 状态 时 ， 这 一 点 尤为 重要 。 

现实 世界 的 知识 或 上 下 文 如 何 影响 聊天 机 器 人 的 回复 的 其 他 一 些 例子 有 “你 是 谁 ? ”或 “你 
来 自 哪 里 ? ”这 里 的 上 下 文 是 提问 涉及 的 人 的 身份 和 背景 。 幸 运 的 是 , 该 上 下 文 可 以 比较 容易 
在 知识 库 或 数据 库 中 生成 和 存储 ， 知 识 库 中 包含 关于 机 器 人 的 配置 文件 或 背景 故事 的 事实 。 我 
们 需要 撰写 聊天 机 器 人 的 配置 文件 ,包含 如 个 性 档案 等 信息 ， 这 些 信息 大 致 反映 了 在 数据 库 中 
贡献 对 话 的 人 的 档案 的 平均 数 或 中 位 数 。 要 计算 此 值 , 我 们 可 以 使 用 在 对 话 数据 库 中 贡献 对 话 
的 用 户 的 档案 。 

聊天 机 器 人 个 性 档案 信息 可 用 于 解决 搜索 数据 库 时 出 现 匹配 语句 的 “平局 ”问题 。 如 果 想 变 
得 特别 久 经 世故 ,那么 可 以 提高 搜索 结果 中 那些 和 机 器 人 个 性 类 似 的 人 的 回复 评分 。 例 如, 假设 
知道 在 对 话 数 据 库 中 记录 的 语句 和 回复 的 人 的 性 别 , 那么 可 以 将 聊天 机 器 人 名 义 上 的 性 别 作为 在 
数据 库 中 搜索 回复 者 的 性 别 的 一 个 “检索 词 ”、 维 度 或 数据 库 字 段 。 如 果 回 复 者 的 性 别 维度 与 聊 
天 机 器 人 的 性 别 相 匹配 ,而 且说 的 语句 词 或 语义 向 量 与 用 户 语句 中 的 相应 向 量 非 常 匹配 , 那么 这 
将 是 搜索 结果 顶部 的 一 个 很 好 的 匹配 项 ,实践 此 匹配 的 最 佳 方法 是 每 次 检索 到 一 条 回复 时 计算 一 
个 评分 函数 ， 并 在 此 评分 中 包含 一 些 个 性 档案 匹配 的 信息 。 

此 外 , 我 们 也 可 以 通过 为 机 器 人 创建 后 台 配 置 文件 并 手动 将 其 存储 在 知识 库 中 来 解决 此 上 下 
文 的 问题 。 这 时 大 家 只 需 确 保 在 聊天 机 器 人 的 数据 库 中 只 包含 与 此 配置 文件 匹配 的 回复 。 

无 论 如 何 使 用 该 配置 文件 使 聊天 机 器 人 具备 前 后 一 致 的 个 性 , 都 需要 把 处 理 与 个 性 配置 文件 
相关 的 问题 作为 特殊 情况 。 如 果 问 答 数 据 库 没有 包含 问题 的 很 多 答案 , 这 样 的 问题 如 “你 是 谁 ? ” 
“你 来 自 哪 里 ? ”和 “你 最 喜欢 什么 颜色 ? ”, 那么 除 检索 之 外 , 我们 还 需要 使 用 其 他 聊天 机 器 人 
技术 。 如 果 没 有 很 多 配置 文件 相关 的 问答 对 ,就 需要 检查 有 关机 器 人 的 任何 问题 , 并 使 用 知识 库 
为 提问 中 的 相关 要 点 “推断 ”适当 的 答案 。 此 外 ,我 们 也 可 以 使 用 基于 语法 的 方法 来 填充 模板 化 
回复 ,使 用 从 存储 聊天 机 器 人 配置 文件 的 结构 化 数据 集中 检索 到 的 信息 。 

为 了 将 状态 或 上 下 文 结合 到 基于 检索 的 聊天 机 器 人 中 , 我 们 可 以 做 一 些 类 似 于 对 模式 匹配 聊 
天 机 器 人 所 做 的 操作 。 不 妨 想 一 想 , 罗列 一 堆 用 户 对 话 只 是 指定 模式 的 男 一 种 方式 而 已 。 事实 上 ， 
这 正 是 亚马逊 的 Lex 和 谷歌 的 Dialogflow 采用 的 方法 ,我 们 可 以 不 用 定义 严格 的 模式 来 匹配 用 户 
指令 ， 而 只 需 为 对 话 引 擎 提供 一 些 示例 。 因 此 ， 就 像 在 模式 匹配 聊天 机 器 人 中 将 状态 与 每 个 模式 
相关 联 一 样 ， 大 家 只 需要 为 每 个 问答 示例 对 也 标记 一 个 命名 的 状态 。 

如 果 作 为 示例 的 问答 对 来 自 非 结 构 化 、 未 经 过 滤 的 数据 源 (如 Ubuntu Dialog Corpus 或 
Reddit )， 那 么 标记 过 程 可 能 很 困难 。 但 是 如 果 使 用 Reddit 等 对 话 训 练 集 ， 我 们 一 般 会 发 现 大 数 
据 集 的 某 一 小 部 分 可 以 根据 其 频道 和 回复 主题 自动 标记 。 我们 可 以 使 用 语义 搜索 和 模式 匹配 工具 
来 聚 类 特定 主题 或 讨论 开始 之 前 的 初始 评论 。 然 后 这 些 聚 类 的 结果 可 以 成 为 我 们 的 状态 。 然 而 ， 
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检测 从 一 个 主题 或 状态 到 为 一 个 主题 或 状态 的 转换 可 能 是 困难 的 ,能够 用 这 种 方式 生成 的 状态 并 
不 像 手工 生成 的 那样 精准 。 

如 有 果 机 器 人 只 用 于 娱乐 和 对 话 , 那么 这 种 状态 (上 下 文 ) 管 理 的 方法 可 能 是 一 个 可 行 的 选择 。 
但 是 , 如果 需 要 聊天 机 器 人 具有 可 预测 且 可 靠 的 行为 , 那么 我 们 可 能 会 继续 使 用 模式 匹配 方法 或 
手工 生成 状态 转换 。 








12.4.2 ”基于 示例 检索 的 聊天 机 器 人 


我 们 将 遵循 ODSC 2017 教程 构建 基于 检索 的 聊天 机 器 人 。 如 果 想 查看 这 个 教程 的 视频 或 
原始 笔记 ， 请 访问 https://github.com/totalgood/prosocial-chatbot 检 出 GitHub 代码 库 的 相关 
资源 。 

我 们 的 聊天 机 器 人 将 使 用 Ubuntu Dialog Corpus， 这 是 一 套 在 Ubuntu IRC 频道 上 记录 的 问答 
集合 , 在 这 个 频道 上 人 们 互相 帮助 解决 技术 问题 。 它 包含 超过 700 万 个 话语 和 100 多 万 个 对 话 会 
话 ， 每 个 会 话 都 有 多 轮 和 多 个 例句 。 数量 巨大 的 问答 对 使 其 成 为 一 个 受 欢 迎 的 数据 集 ， 研 究 人 
员 用 它 来 评估 基于 检索 的 聊天 机 器 人 的 精确 性 。 

这 些 是 大 家 “训练 ”基于 检索 的 聊天 机 器 人 需要 的 那 种 问答 对 。 但 不 要 担心 ,我 们 不 会 使 用 
所 有 700 万 个 例句 ， 而 只 需要 使 用 大 约 15 万 轮 ， 看 看 是 否 足 以 让 聊天 机 器 人 学 到 一 些 常见 的 
Ubuntu 问题 的 答案 。 要 开始 使 用 该 数据 集 ， 请 下 载 代码 清单 12-9 中 以 字 节 数 标 出 大 小 的 Ubuntu 
语料库 。 























代码 清单 12-9 ch12 retrieval.py 





>>> from nlpia.data.loaders import get_data 

>>> df = get_data('ubuntu_dialog') 

Downloading ubuntu_dialog 

requesting URL: 

https://.../s/krvi79fbsryytc2/ubuntu_dialog.csv.gz?dl=1 

remote size: 296098788 

Downloading to /Users/hobs/src/nlpia/nlpia/bigdata/ubuntu_dialog.csv.gz 
39421it [00:39, 998.09it/s] 


如 果 没 有 在 大 数据 集 上 使 用 过 nlpia.data.loaders.get _qata()， 则 可 能 会 收 到 有 关 
/pigdata/ 路 径 不 存在 的 警告 。 但 是 当 大 家 第 一 次 运行 时 ， 下 载 器 会 为 我 们 创建 该 路 径 。 

注意 ”如果 大 家 有 8 GB 可 用 内 存 ， 上 述 脚 本 将 正常 运行 。 如 果 内 存 不 足 ， 请 尝试 减 小 数据 集 一 一 通 

过 df 模块 切 出 少量 行 数 。 在 下 一 章 中 ,我 们 使 用 gensim 批量 处 理 “ 超 出 内 存 ” 的 数据 ， 这 样 我 

们 可 以 使 用 更 大 的 数据 集 。 





Q@ 详 见 2015 Æ Lowe 等 人 发 表 的 文章 “The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured 
Multi-Turn Dialogue Systems” o 
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这 个 语料库 的 一 部 分 示例 内 容 如 代码 清单 12-10 所 示 。 


代码 清单 12-10 ch12_retrieval.py 


>>> df.head (4) 





Context Utterance 
0 i think we could import the old comments via r... basically each xfree86 
upload will NOT force u... 
1 I'm not suggesting all - 
only the ones you mod... oh? oops. _eou 
2 afternoon all eou not entirely related to ... we'll have a BOF about 
this _eou__ so you're ... 
3 interesting _eou__ grub-install worked with / 
i fully endorse this suggestion </quimby> _ eo... 


注意 到 “ ”eou ” 词 条 了 吗 ? 这 看 起 来 可 能 是 一 个 在 处 理 上 非常 具有 挑战 性 的 数据 集 。 但 
它 可 以 让 我 们 练习 一 下 自然 语言 处 理 中 常见 的 预 处 理 挑战 。 该 词 条 表示 “发 言 结 束 "， 即 “发 言 
者 ”在 其 IRC 客户 端 上 点 击 [返回 ] 或 [发 送 ] 的 时 刻 。 如 果 打 印 出 一 些 示例 上 下 文 (Context ) 字段 ， 
我 们 会 发 现 还 有 “_eot_”(“ 轮 次 结束 ”) 标记 , 该 标记 表示 某 人 已 经 结束 发 言 并 正在 等 待 回复 。 

但 是 如 果 我 们 把 目光 放 在 单个 上 下 文 文档 ( 表格 中 的 行 ), 那么 我 们 会 看 到 有 多 个 ”_eot ” 
( 轮 次 ) 标记 。 这 些 标记 可 以 帮助 更 智能 的 聊天 机 器 人 测试 它们 如 何 处 理 我 们 在 上 一 节 中 讨论 过 
的 上 下 文 问题 。 但 是 大 家 要 和 忽略 语料库 中 额外 的 轮 次 , 而 只 需 关注 最 后 一 轮 ， 即 发 言 (utterance ) 
回复 的 那 一 轮 。 首 先 ， 我 们 创建 一 个 函数 来 按照 “_eot ”符号 拆 分 并 清理 “eou ”标记 ， 
如 代码 清单 12-11 所 示 。 








代码 清单 12-11 ch12_retrieval.py 





>>> import re 


>>> def split_turns(s, splitter=re.compile(' eot ')): 
for utterance in splitter.split(s): 
utterance = utterance.replace(' eou ', '\n') 
utterance = utterance.replace(' eot ', '').strip() 


if len(utterance): 
yield utterance 


我 们 在 DataFrame 中 的 几 行 数据 上 运行 split_turns 函数 ， 看 看 它 是 否 有 用 。 我 们 将 仅 从 
Context 和 Utterance 字段 中 提取 最 后 一 轮 对 话 ， 看 看 是 否 足 以 训练 基于 检索 的 聊天 机 器 人 。 具 
体 代码 如 代码 清单 12-12 所 示 。 





代码 清单 12-12 ch12_retrieval.py 


>>> for i, record in df.head(3).iterrows(): 


statement = list (split_turns(record.Context) ) [-1] 
reply = list (split_turns (record.Utterance) ) [-1] 
print('Statement: {}'.format (statement) ) 

print () 


print('Reply: {}'.format (reply) ) 
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输出 的 结果 如 下 : 


Statement: I would prefer to avoid it at this stage. this is something that 
has gone into XSF svn, I assume? 
Reply: each xfree86 upload will NOT force users to upgrade 100Mb of fonts 
for nothing 
no something i did in my spare time. 


Statement: ok, it sounds like you're agreeing with me, then 
though rather than "the ones we modify", my idea is "the ones we need to 
merge" 
Reply: oh? oops. 


Statement: should g2 in ubuntu do the magic dont-focus-window tricks? 
join the gang, get an x-series thinkpad 

sj has hung on my box, again. 

what is monday mornings discussion actually about? 
Reply: we'll have a BOF about this 

so you're coming tomorrow ? 


非常 好 ! 看 起 来 该 数据 有 多 个 语句 (话语 ) 的 提问 和 回复 。 因 此 ， 上 述 脚本 执行 的 正 是 我 们 
想 要 的 操作 ， 我 们 可 以 使 用 它 来 填充 问 - 答 对 映射 表 ， 如 代码 清单 12-13 所 示 。 





代码 清单 12-13 ch12_retrieval.py 


>>> from tqdm import tqdm 


>>> def preprocess_ubuntu_corpus (df): 


we 


Split all strings in df.Context and df.Utterance on 





_eot_ (turn) markers 

statements = [] 这 里 需要 一 个 if, Al 
replies = [] 为 有 些 提问 和 回复 只 
for i, record in tqdm(df.iterrows()): 包含 空白 符 


turns = list(split turns (record.Context) ) 
statement = turns[-1] if len(turns) else '\n' 
statements .append (statement) 
turns = list(split turns (record.Utterance)) 
reply = turns[-1] if len(turns) else '\n' 
replies.append (reply) 

df['statement'] = statements 

df['reply'] = replies 

return df 


现在 , 我 们 需要 在 语句 (statement ) 列 中 检索 与 用 户 语句 最 接近 的 匹配 ,并 使 用 回复 (reply ) 
列 中 相应 的 回复 进行 回答 。 大 家 是 否 记 得 在 第 3 章 中 如 何 使 用 词 频 向 量 和 TF-IDF 向 量 查 找 相 似 
的 自然 语言 文档 ? 具体 做 法 参见 代码 清单 12-14。 











代码 清单 12-14 ch12_retrieval.py 


>>> from sklearn.feature extraction.text import TfidfVectorizer 
>>> df = preprocess ubuntu corpus (df) 
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>>> tfidf = TfidfVectorizer(min_df=8, max_df=.3, max features=50000) 



































>>> tfidf.fit(df.statement) 注意 , 这 里 只 需要 计算 提问 (不 包括 回 
复 ) 的 TF-IDF， 因 为 提问 是 我 们 需要 
搜索 的 对 象 


我 们 创建 一 个 名 为 XX 的 DataFrame, 保存 15 万 条 语句 的 所 有 TF-IDF HE, 如 代码 清单 12-15 
所 示 。 





代码 清单 12-15 ch12 retrieval.py 


>>> X 
>>> X 


查找 最 接近 语句 的 一 种 方法 是 计算 从 查询 语句 到 X 矩阵 中 所 有 语句 的 余弦 距离 ， 如 代码 清 
单 12-16 所 示 。 


tfidf.transform(df.statement) 
pd.DataFrame (X.todense(), columns=tfidf.get_feature_names() ) 





代码 清单 12-16 ch12_retrieval.py 


>>> x = tfidf.transform(['This is an example statement that\ 
aay we want to retrieve the best reply for.'] 

>>> cosine_similarities = x.dot(X.T) 

>>> reply = df.loc[cosine_similarities.argmax () ] 


这 需要 很 长 的 时 间 ( 在 我 的 MacBook 上 超过 一 分 钟 )， 而 且 我 们 甚至 没有 计算 置信 度 值 ， 也 
没有 获取 与 其 他 指标 相 结合 的 所 有 可 能 的 回复 列表 。 


12.4.3 ”基于 搜索 的 聊天 机 器 人 


如 果 想 要 匹配 的 模式 就 是 人 们 在 之 前 的 对 话 中 说 过 的 内 容 该 怎么 办 ?这 就 是 基于 搜索 的 聊 
天 机 器 人 (或 基于 检索 的 聊天 机 器 人 ) 所 做 的 事情 。 基 于 搜索 的 聊天 机 器 人 对 对 话语 料 库 进 行 索 
引 ， 以 便 我 们 可 以 轻松 检索 到 和 要 回复 的 语句 相似 的 之 前 的 语句 。 随 后 , 它 可 以 回复 语料库 中 与 
该 语句 关联 的 一 个 回复 ,该 回复 已 经 被 “记忆 ”和 索引 以 便 快 速 检 索 。 

如 果 想 快速 开始 使 用 基于 搜索 的 聊天 机 器 人 ,那么 Gunther Cox 的 ChatterBot 是 一 个 非常 不 
错 的 框架 。 它 易于 安装 (只 需 执行 Pip install ChatterBot )， 并 附带 了 几 个 对 话语 料 库 ， 
大 家 可 以 用 它 来 “训练 ”聊天 机 右 人 以 进行 基本 的 对 话 。ChatterBot 有 一 个 语料库 ， 可 以 让 它 谈 
论 诸如 赛事 花 佘 、 人 工 智 能 感知 相关 的 哲学 , 或 者 只 是 闲聊 。ChatterBot 可 以 在 任何 对 话 序 列 ( 对 
话语 料 库 ) 上 “训练 ”。 不 要 把 这 当 作 机 器 学 习 训练 ， 而 只 需 当 作对 一 组 文档 进行 索引 以 便 搜 索 。 

默认 情况 下 ，ChatterBot 在 训练 过 程 中 使 用 人 类 双方 的 语句 作为 自己 的 语句 材料 。 如 果 想 要 
更 精确 地 定义 聊天 机 器 人 个 性 ， 则 需要 以 ChatterBot 的 “.yml” 格 式 创 建 自 己 的 语料库 。 为 确保 
聊天 机 器 人 只 能 模仿 一 种 个 性 ， 请 确保 语料库 中 的 每 个 对 话 只 包含 两 条 语句 ， 一 条 是 提问 ， 另 一 
条 是 回复 ， 而 回复 来 自 想 要 模仿 的 个 性 。 顺 便 提 一 下 ， 这 种 格式 类 似 于 AIML ， 有 一 个 模式 
( ChatterBot 中 的 提示 statement ) 和 一 个 模板 ( ChatterBot 中 的 response )。 

当然 ， 以 这 种 方式 构建 的 基于 搜索 的 聊天 机 器 人 非常 受 限 。 它 永远 无 法 赶 上 新 语句 的 出 现 。 
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我 们 拥有 的 数据 越 多 ， 亦 力 搜索 之 前 所 有 的 语句 就 越 难 。 因 此 ， 机 器 人 越 聪 明 优化 程度 越 高， 它 就 
越 慢 。 这 种 架构 不 能 很 好 地 扩展 。 因 此 ， 我 们 会 介绍 一 些 先进 的 技术 来 扩展 任何 一 个 基于 搜索 或 索 
引 的 带 有 索引 工具 的 聊天 机 器 人 ， 这 些 索 引 工具 如 局 部 敏感 哈 希 表 (pip install 1shash3 ) 和 
近似 接近 邻居 算法 (pip install annoy) 等 索引 工具 。 

由 于 开 箱 即 用 ，ChatterBot 使 用 SQLite 作为 其 数据 库 ， 一 旦 语料库 中 超过 大 约 1 万 条 语句 ， 
扩展 性 的 问题 就 会 凸显 出 来 。 如 果 想 要 在 Ubuntu Dialog Corpus 上 训练 一 个 基于 SQLite 的 
ChatterBot ， 毫 不 夸张 地 说 ， 这 会 需要 儿 天 时 间 。 我 在 MacBook 上 花 了 一 天 多 的 时 间 只 处 理 了 10 
万 条 问答 对 。 尽 管 如 此 ， 这 个 ChatterBot 代码 对 于 下 载 和 处 理 上 述 Ubuntu 相关 的 技术 对 话 宝 藏 
非常 有 用 。ChatterBot 会 为 大 家 完成 所 有 的 记 账 (bookkeeping ) 工作 ， 在 遍历 “多 时 节点 ”文件 
系统 树 检 索 每 个 会 话 之 前 自动 下 载 并 解压 缩 tarball 文件 。 

ChatterBot 的 “训练 ”数据 ( 实际 上 只 是 一 个 对 话语 料 库 ) 在 关系 数据 库 中 的 存储 方式 如 代 
码 清单 12-17 所 示 。 


代码 清单 12-17 ch12_chatterbot.sq| 


sqlite> .tables 

















conversation response tag 
conversation_association statement tag_association 
sqlite> .width 5 25 10 5 40 

sqlite> .mode columns 

sqlite> .mode column 

sqlite> .headers on 

sqlite> SELECT id, text, occur FROM response LIMIT 9; 

id text occur statement_text 





Artificial Intelligence is the branch of 

AI is the field of science which concern 

SOrt Of. 

By the strictest dictionary definition o 

Even though I'm a construct I do have a 

In all probability, I am not. I'm not t 

Do you think I am? 

How would you feel about me if I told yo 
4 No. 


注意 ， 某 些 语句 有 许多 与 其 关联 的 不 同 回复 ， 这 使 聊天 机 器 人 可 以 根据 情绪 、 上 下 文 或 者 随 
机 在 可 能 的 回复 中 进行 选择 。ChatterBot 仅 随 机 选择 一 个 回复 ， 但 是 如 果 大 家 结合 其 他 一 些 目标 
函数 或 损失 函数 或 通过 启发 式 方法 来 干预 选择 的 话 , 那么 机 器 人 的 回复 可 能 会 更 加 复杂 。 另 外 请 
TER, created at 字段 对 应 的 日 期 都 是 相同 的 。 这 正 是 我 们 运行 ChatterBot“ 训 练 ” 脚 本 的 日 
期 ， 该 脚本 下 载 对 话语 料 库 并 将 它们 加 载 到 数据 库 中 。 

基于 搜索 的 聊天 机 器 人 也 可 以 通过 将 语句 字符 串 降 维 到 固定 维度 的 主题 向 量 来 改进 ， 例 如 使 
用 诸如 Word2vec 对 短语 句 中 的 所 有 词 向 量 求 和 )、Doc2vec (第 6 章 ) 或 LSA (第 4 章 ) 之 类 的 
方法 。 降 维 将 有 助 于 机 器 人 通过 训练 样本 进行 泛 化 。 这 有 助 于 当 查 询 语句 ( 机 器 人 交谈 对 象 的 最 近 


What is AI? 

Are you sentient? 
Are you sentient? 
sentient? 
Are you sapient? 
Are you sapient? 
Are you sapient? 
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Are you sapient? 
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一 条 语句 ) 和 语料库 的 某 个 语句 意思 相近 时 , 即使 双方 使 用 不 同 的 词 , 机 器 人 也 能 够 作出 恰当 的 回 
复 。 即 使 语句 的 拼写 或 字符 差异 很 大 , 该 方法 也 会 起 作用 。 本 质 上 ,这 个 基于 语义 搜索 的 聊天 机 咒 
人 正 自动 编写 本 章 前 面 大 家 用 AIML 编写 的 模板 。 与 硬 编码 的 机 器 智 能 方法 相 比 ， 这 种 降 维 还 使 
基于 搜索 的 聊天 机 咒 人 通过 机 器 学 习 (数据 驱动 ) 变 得 更 加 智能 。 当 有 大 量 的 标记 数据 时 ,机 带 学 
习 比 硬 编码 更 好 ， 不 需要 花费 大 量 时 间 ( 编写 错综复杂 的 逻辑 和 模式 来 触发 响应 )。 对 于 基于 搜索 
的 聊天 机 器 人 ， 唯 一 需要 的 “标记 ”是 对 话 中 每 条 示例 语句 对 应 的 示例 响应 。 


12.5 ”生成 式 方法 


本 章 前 面 我 们 说 要 介绍 一 个 生成 式 模型 。 但 是 如 果 回 想 一 下 在 第 10 章 中 创建 的 序列 到 序列 
的 模型 ,我 们 就 可 以 把 它们 当 作 生成 式 聊天 机 器 人 。 它们 是 基于 机 器 学 习 的 翻译 算法 , 可 以 将 用 
户 的 语句 “翻译 ”为 聊天 机 器 人 的 回复 。 所 以 我 们 在 这 里 不 再 详细 介绍 生成 式 模型 ， 但 需要 知道 
的 是 ， 还 存在 很 多 种 生成 式 模型 。 

如 果 想 构建 一 个 富有 创造 力 的 聊天 机 器 人 , 说 一 些 它们 之 前 从 未 说 过 的 话 , 那么 下 面 这 些 生 
成 式 模型 可 能 是 我 们 所 需要 的 : 

E 序列 到 序列 一 一 序列 模型 ， 训 练 根据 输入 序列 生成 回复 ; 

E ERAZ (RBM) 一 一 马尔 可 夫 链 ， 训 练 最 小 化 “能 量 ”函数 "; 

m 生成 式 对 抗 网 络 ( GAN ) 一 一 统计 模型 ， 训 练 欺骗 “善于 谈话 ”的 裁判 ”。 

我 们 在 第 10 章 中 讨论 了 注意 力 网 络 (增强 型 LSTM ), 并 且 我 们 展示 了 聊天 机 器 人 可 以 自发 
生成 的 各 种 新 颖 语句 。 在 下 一 节 中 ， 我 们 从 另 一 个 方向 谈 谈 这 种 方法 。 





























































































































12.5.1 HIWI NLPIA 


终于 ， 我 们 等 来 了 期 竺 已 久 的 那 一 刻 …… 一 个 可 以 辅助 编写 NLP 方向 书籍 的 聊天 机 器 人 。 
我 们 终于 为 聊天 机 器 人 写 了 ( 同时 大 家 都 已 经 阅读 过 ) 足够 的 文本 来 作为 种 子 语 料 使 用 。 在 本 节 
中 ， 我 们 将 介绍 如 何 使 用 迁移 学 习 来 构建 生成 式 NLP 流水 线 ， 从 而 生成 一 些 可 能 在 大 家 没有 注 
意 的 情况 下 已 经 浏览 过 的 句子 。 

为 什么 使 用 迁移 学 习 ? 除了 那些 希望 聊天 机 器 人 理解 的 关于 特定 主题 的 种 子 文本 , 生成 式 模 
型 还 需要 更 一 般 的 文本 组 成 的 更 大 语料库 来 学 习 语 言 模型 。 聊天 机 器 人 需要 通过 大 量 阅读 才能 识 
别 出 词 组 合 在 一 起 形成 语法 正确 且 有 意义 的 句子 的 所 有 方式 , 并 且 该 语料库 必须 被 切 分 成 语法 正 
确 的 句子 ， 所 以 古 腾 堡 语料库 不 是 这 个 模型 理想 的 用 武之 地 。 

回想 一 下 ， 当 我 们 还 是 孩童 时 , 在 拥有 足够 的 词汇 量 以 及 对 于 将 词 正 确 组 合成 句子 有 感觉 之 
前 需要 阅读 的 书籍 数量 。 当 练习 阅读 时 ， 老 师 可 能 会 给 大 家 很 多 提示 ， 如 背景 知识 。 此 外 ， 人 

























































































® Hinton 在 Coursera 的 演讲 。 
(2) Ian Goodfellow 在 NIPS2016 上 关于 GAN 的 教程 ， 以 及 Lantau Yu 在 文本 序列 上 的 适 配 工作 。 


®© “On the role of context in first- and second-language vocabulary learning” o 
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类 在 学 习 领 域 比 机 器 擅长 得 多 。 

这 种 数据 密集 型 语言 模型 的 学 习 对 基于 字符 的 模型 来 说 是 一 个 巨大 的 挑战 。 在 字符 序列 语言 
模型 中 , 聊天 机 器 人 除了 需要 学 习 如何 将 字符 组 合 在 一 起 以 组 成 拼写 正确 且 有 意义 的 词 , 还 要 学 
习 如 何 将 这 些 新 词组 合 在 一 起 组 成 句子 。 因 此 , 我 们 需要 复 用 基于 想 要 机 器 人 模仿 的 语言 和 风格 
的 大 量 文本 上 训练 好 的 现 有 语言 模型 。 如 果 再 细 想 一 下 , 大 家 就 会 发 现 为 什么 数据 的 局 限 性 决定 
了 目前 NLP 研究 人 员 在 从 字符 到 词 再 到 句子 这 条 复杂 弯曲 的 道路 上 能 够 走 多 远 。 生 成 段落 、 章 
节 和 小 说 还 是 一 个 活跃 的 研究 领域 。 因 此 , 关于 生成 式 模型 我 们 先 介绍 到 这 里 ， 下 面 展示 如 何 生 
成 一 些 句 子 ， 例 如 为 本 书 的 “关于 本 书 ” 等 生成 的 句子 。 

DeepMind 的 人 提供 了 TensorFlow 基于 字符 的 序列 到 序列 语言 模型 ， 该 模型 在 超过 500 MB 
KÁ CNN Fil Daily Mail 新 闻 信息 流 的 句子 上 进行 了 预 训练 。 如 果 要 构建 自己 的 语言 模型 , 可 以 
参考 他 们 已 经 发 布 的 在 两 个 大 型 数据 集中 的 所 有 人 句子， 这 些 句 子 是 他 们 的 “阅读 理解 ”( Q&A ) 
挑战 数据 集 的 一 部 分 。 我 们 直接 复 用 预 训练 的 文本 摘要 模型 来 为 本 书 的 “关于 本 书 ” 生 成 句子 。 
大 家 还 可 以 使 用 一 种 称 为 “迁移 学 习 ” 的 方法 ， 用 这 些 模 型 来 增强 自己 的 机 器 学 习 流 水 线 ， 就 像 
我 们 在 第 6 章 中 对 词 向 量 的 做 法 一 样 。 

下 面 给 出 的 是 算法 的 描述 。 

(1 ) 下 载 预 训练 的 序列 到 序列 文本 摘要 模型 ( https://github.com/totalgood/pointer-generator# 
looking-for-pretrained-model )。 

(2) 使 用 nlpia.book parser 解析 和 切 分 asciidoc 文本 以 提取 自然 语言 句子 (https://github. 
com/totalgood/nlpia/blob/master/src/nlpia/book-parser.py )。 

(3 ) 使 用 文本 摘要 模型 对 每 个 asciidoc 文件 (一 般 是 一 章 ) 的 前 30 行 左右 的 文本 进行 摘要 抽取 
( https://github.com/totalgood/nlpia/blob/master/src/nlpia/book/examples/ch12 chat about nlpia.py ). 

(4) 考虑 新 祝 性 ， 对 生成 的 句子 进行 过 滤 ， 避 免 出 现 书 中 已 有 的 句子 (https://github.conmytotalgood/ 
nlpia/blob/master/sre/nlpia/book_parser.py )。 

以 下 是 我 们 的 @ChattyAboutNLPIA 机 器 人 得 到 仅 有 的 两 个 结构 良好 且 略 具 原 创 性 的 句子 。 
这 是 @Chatty 尝试 对 第 5 章 的 前 30 行进 行 摘要 提取 的 结果 : 



































































































































Convolutional neural nets make an attempt to capture that ordering relationship by capturing 


localized relationships. 


( 卷 积 神经 网 络 试图 通过 捕获 局 部 关系 来 捕获 该 顺序 关系 。) 
下 面 是 @Chatty 对 第 8 章 的 总 结 : 








@® 详 见 “One-shot and Few-shot Learning of Word Embeddings” 和 “One-shot learning by inverting a compositional 





causal process” o 

© 预 训练 的 TensorFlow 文本 摘要 模型 : 来 自 谷 歌 大 脑 的 TextSum (https://github.com/totalgood/pointer-generator# 
looking-forpretrained-model )， 以 及 一 篇 介绍 该 模型 的 论文 。 

@ 数据 集 包括 阅读 理解 的 问题 和 答案 ， 以 及 你 需要 用 来 回答 这 些 问 题 的 新 闻 文 章 中 的 句子 : DeepMind Q&A 


Dataset. 
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Language’s true power is not necessarily in the words, but in the intent and emotion that 


formed that particular combination of words. 
(语言 的 真实 力量 不 一 定 在 词 中 ， 而 在 于 形成 特定 的 词组 合 的 意图 和 情感 中 。) 


这 些 句 子 出 自 该 25 个 输出 (src/nlpia/data/nlpia_ summaries.md )。 在 接 下 来 的 几 个 月 中 ,我 们 将 改 
进 nlpia.book.examples. ch12_chat_ about nlpia 中 的 流水 线 以 提供 更 有 用 的 结果 。 一 个 增强 方法 是 使 
用 TextSum 处 理 整 本 书 ， 这 样 算法 就 有 更 多 的 语 料 可 供 使 用 。 我 们 还 需要 采用 更 多 的 过 滤 规 则 : 

(1) 过 滤 生 成 的 句子 ， 留 下 那些 结构 良好 的 句子 ; ” 

(2) 以 自己 的 风格 和 情感 为 目标 过 滤 生 成 的 句子 ; 

(3) 如 有 必要 的 话 ， 自 动 还原 词 条 以 及 大 小 写 (使 用 大 写 )。 














12.5.2 ”每 种 方法 的 利 次 


现在 大 家 已 经 了 解 了 4 种 主要 的 聊天 机 器 人 实现 方法 , 那么 大 家 能 和 否 想到 如 何 将 它们 结合 起 
来 在 自己 的 机 需 人 上 获得 最 好 的 效果 呢 ? 图 12-3 中 列 出 了 每 种 方法 的 优 缺 点 。 




















方法 TU 缺点 
模式 匹配 方法 易于 上 手 有 限 的 “领域 
训练 易于 复 用 能 力 受 到 人 力 投入 的 限制 
模块 化 调试 困难 
易于 控制 /约束 硬性 脆弱 规则 
擅长 回答 逻辑 问题 听 起 来 像 是 人 工 的 、 机 械 的 
易于 控制 /约束 难以 处 理 含糊 不 清 的 情况 
难以 处 理 常 识 
受 结构 化 数据 的 限制 
需要 大 规模 的 信息 抽取 
需要 人 工 管理 
搜索 方法 简单 难以 扩展 
容易 “训练 ” 不 连贯 的 “人 格 
可 以 模仿 人 的 对 话 无 法 感知 上 下 文 
无 法 回答 事实 性 问题 
生成 方法 新 的 、 富 有 创造 力 的 对 话 方式 难以 “引导 ” 
更 少 的 人 力 投入 难以 训练 
领域 仅 受 数据 限制 需要 更 多 数据 (对 话 ) 
上 下 文 感 知 需要 更 多 处 理 才能 训练 





图 12-3 4 种 聊天 机 器 人 方法 的 优 缺 点 
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正如 我 们 在 本 章 开 头 所 承诺 的 那样 ， 现 在 我 们 介绍 如 何 将 所 有 4 种 方法 结合 起 来 获得 用 户 
的 青睐 。 为 此 ， 我 们 需要 一 个 易于 扩展 和 修改 的 现代 聊天 机 器 人 框架 ， 可 以 高 效 并 行 地 运行 这 














D 感谢 Kyle Gorman 提供 的 100 多 条 建议 以 及 为 本 书 提供 的 一 些 巧 妙 的 内 容 。 
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些 算法 。" 我 们 将 基于 本 章 前 面 几 节 的 Python 示例 为 4 种 方法 中 的 每 一 种 都 添加 回复 生成 器 。 
然后 我 们 将 添加 逻辑 来 决定 选择 4 个 中 的 一 个 (或 多 个 ) 的 响应 来 回复 。 在 回复 之 前 ,我们 将 
让 聊天 机 器 人 思考 ,首先 生成 几 种 不 同方 法 的 回复 ， 然 后 对 某 些 备 选 方案 中 进行 排名 或 合并 来 
生成 回复 。 也 许 甚至 可 以 在 “点 击发 送 按钮 ”之 前 检测 用 户 的 情绪 ,来 尝试 让 回复 表现 出 亲 社 
会 的 特征 。 






































Will 的 成 功 


Will 是 Steven Skoczen 的 一 个 现代 的 对 程序 员 友 好 的 聊天 机 器 人 框架 ， 可 以 加 入 大 家 的 
HipChat, Slack 或 者 其 他 聊天 软件 的 频道 中 。Python 开发 人 员 会 喜欢 这 种 模块 化 的 架构 。 但 是 ， 
已 在 要 求 和 安装 方面 特别 复杂 。 幸 运 的 是 ， 它 带 有 一 个 Docker 容器 ， 可 以 用 来 启动 大 家 自己 的 
聊天 机 需 人 服务 器 。 

Will 使 用 正则 表达 式 进行 匹配 ，Python 本 身 支 持 我 们 需要 评估 的 任何 逻辑 条 件 ，jinja2 库 用 
于 编写 模板 。 流水 线 中 的 每 个 部 分 都 为 我 们 给 聊天 机 器 人 添加 各 种 行为 的 类 型 提供 了 通用 性 和 灵 
活性 。 因此, Will 比 基 于 AIML 的 框架 更 灵活 。 但 是 , 它 也 会 遇 到 所 有 基于 模式 的 聊天 机 器 人 ( 包 
括 AIML ) 所 受 的 同样 限制 一 一 它 无 法 从 数据 中 学 习 ， 它 必须 通过 开发 人 员 的 “指导 ”为 逻辑 树 
中 的 每 个 分 支 编写 代码 。 


1. 安装 Will 


Will 的 安装 文档 有 一 些小 问题 。 到 本 书 交 付 打 印 时 ， 我 们 希望 这 些 问题 能 够 被 修复 ， 这 样 大 家 
就 可 以 阅读 到 高 质量 的 文档 。 在 MacOS XE, FeV WRIA Redis 服务 器 (brew install 


redis )。 






































2. 你 好 Will 
如 果 大 家 忽略 关于 80 端口 权限 的 错误 消息 ， 或 者 摘 清 楚 如 何 避 免 这 些 错 误 ， 那 么 下 面 就 是 




















与 未 经 训练 的 Will 之 间 的 对 话 内 容 : 
You: Hey 
Will: hello! 
You: What's up? 
Will: I heard you, but I'm not sure what to do. 
You: How are you? 
Will: Doing alright. How are you? 
You: What are you? 
Will: Hmm. I'm not sure what to say. 
You: Are you a bot? 
Will: I didn't understand that. 











D 我 们 正在 Aira 开发 一 个 名 为 ai chat 的 开源 聊天 机 器 人 村 
的 对 话 库 贡 献 内 容 ， 帮 助 视 障 人 士 并 给 他 们 带 来 欢乐 。 


Gal 
= 


， 来 帮助 我 们 的 用 户 和 他 们 的 朋友 为 我 们 
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正如 大 家 所 看 到 的 ，Will 开 箱 即 用 ,而且 它 很 有 礼貌 ,但 知道 的 不 大 多。 大 家 可 以 很 容易 地 


把 Will 改名 成 Rosa (或 任何 其 他 名 字 ), 并 且 可 以 使 用 自然 语言 处 理 技巧 来 给 它 充 实 一 些 模式 并 
扩展 它 的 语言 能 力 。 

















12.7 设计 过 程 


为 了 开发 有 用 的 应 用 程序 ， 产 品 经 理 和 开发 人 员 需 要 撰写 用 户 故 事 (user story )。 用 户 故 事 
描述 了 用 户 在 与 应 用 程序 交互 时 执行 的 一 系列 操作 以 及 应 用 程序 应 该 如 何 响应 。 这 些 可 以 根据 
现实 世界 中 类 似 产品 的 相关 经 验 来 设想 , 也 可 以 根据 用 户 功 能 要 求 或 反馈 进行 推 窒 。 软 件 功能 
被 关联 到 用 户 故 事 中 , 从 而 提高 开发 工作 集中 在 可 以 为 我 们 的 产品 增加 实用 性 的 那些 功能 上 的 
可 能 性 。 

聊天 机 器 人 的 用 户 故 事 通常 可 以 由 用 户 与 机 带 人 交流 的 语句 (文本 消息 ) 组 成 。 然 后 ， 这 些 
用 户 的 语句 会 与 聊天 机 器 人 或 虚拟 助手 相应 的 回复 或 动作 配对 。 对 于 基于 检索 的 聊天 机 需 人 , 这 
个 用 户 故 事 表 就 是 “训练 ”特定 回复 和 用 户 故 事 的 聊天 机 器 人 所 需 的 全 部 数据 。 需 要 泛 化 的 用 户 
故事 由 我 们 开发 人 员 决定 , 所 以 我 们 的 设计 团队 不 必 指 定 机 器 人 必须 理解 的 所 有 内 容 以 及 它 可 以 
说 的 所 有 不 同 内 容 。 大 家 能 说 出 4 种 聊天 机 需 人 方法 分 别 适 用 于 下 面 哪 一 种 问题 吗 ? 

m “Hello!” => “Hello!” 

“Hi? => “Hi!” 


“How are you?” => “I’m fine. How are you?” 





















































v 









































“How are you?” => “I’m a stateless bot, so I don’t have an emotional state.” 

“Who won the 2016 World Series?” => “Chicago Cubs” 

“Who won the 2016 World Series?” => “The Chicago Cubs beat the Cleveland Indians 4 to 3” 
“What time is it” => “2:55 pm” 


“When is my next appointment?” => “At 3 pm you have a meeting with the subject 


‘Springboard call’” 
E “When is my next appointment?” => “At 3 pm you need to help Les with her Data Science 
course on Springboard” 
m “Who is the President?” => “Sauli Niinistö” 
m “Who is the President?” => “Barack Obama” 
对 于 任何 给 定 的 语句 ， 即 使 用 户 和 上 下 文 完全 相同 ， 也 可 能 有 几 个 有 效 的 回复 。 另 外 ， 多 个 
不 同 的 提问 语句 通 稼 会 得 到 聊天 机 器 人 相同 的 回复 (或 一 组 可 能 的 回复 )。 提 问 语句 和 回复 之 间 
存在 双向 多 对 多 映射 ,就 像 人 类 对 话 一 样 。 因 此 ， 有 效 提 问 语句 => 回复 的 映射 可 能 组 合 数量 是 
巨大 的 一 一 看 起 来 是 无 限 的 (但 在 技术 上 是 有 限 的 )。 
大 家 还 必须 使 用 命名 变量 存储 经 常 变 动 的 上 下 文 元 素 , 扩展 用 户 故 事 中 的 提问 语句 -回复 对 。 
m 日 期 。 
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时 间 。 
位 置 : 国家 、 州 、 县 和 市 ， 或 纬度 和 经 度 。 
区 域 设置 : 美国 或 芬兰 格式 的 日 期 、 时 间 、 货 币 和 数字 。 
接口 类 型 : 手机 或 笔记 本 电脑 。 
界面 形态 : 语音 或 文本 。 
历史 交互 : 用 户 最 近 是 否 询 问 有 关 棒 球 统计 数据 的 详细 信息 。 

E ”从 移动 设备 传输 流 式 音频 、 视 频 和 传感器 数据 ( Aira.io )。 

IBM Watson 和 Amazon Lex 聊天 机 器 人 API 依赖 不 易 快速 变化 的 知识 库 , 并 与 那些 不 断 变 化 
的 上 下 文 变量 保持 同步 。 这 些 知 识 库 或 数据 库 的 “ 写 人 速率 ” 太 慢 了 ， 以 至 于 无 法 处 理 聊 天 机 器 
人 和 用 户 正在 进行 交互 的 许多 关于 这 个 世界 的 不 断 变化 的 事实 。 

即使 是 最 简单 的 聊天 机 器 人 , 其 可 能 的 用 户 故事 列表 在 技术 上 也 是 有 限 的 , 而 对 现实 世界 中 
最 简单 的 聊天 机 器 人 而 言 , 该 列表 是 非常 庞大 的 。 处 理 这 种 组 合 爆炸 的 一 种 方法 是 将 很 多 用 户 交 
互 组 合成 一 个 模式 或 模板 。 对 于 映射 的 提问 语句 侧 , 该 方法 等 效 于 创建 一 个 正则 表达 式 ( 或 有 限 
状态 机 ) 来 表示 需要 产生 指定 模式 回复 的 某 些 语句 组 。 对 于 映射 的 回复 侧 ， 该 方法 等 效 于 
Jinja2、Django 或 Python fstring 模板 。 

回想 第 1 章 中 的 第 一 个 聊天 机 器 人 ,我 们 可 以 通过 将 语句 的 正则 表达 式 映射 到 回复 的 Python 
f-string 的 方式 来 表示 提问 语句 => 回复 映射 

























































































>>> pattern response = { 
r"[HhJello| [Hh]i[!]*": 
r"Hello {user_nickname}, would you like to play a game?", 
x" [Hh] ow[\s]*('s|are|'re)?[\s]*[Yy]ou([\s]*doin['g]?)?": 
r"I'm {bot_mood}, how are you?", 
} 


(AIBA IEFEA SCARE RAE Re EP AN ELAS AE, SRE DT 
获 大 范围 的 语句 和 回复 。 大 家 可 能 希望 机 需 学 习 模 型 能 够 处 理 各 种 体育 赛事 问题 或 帮助 用 户 管理 
他 们 的 日 程 。 
重要 说 明 ”不 要 将 这 些 原 始 字符 串 模 板 更 改 为 带 有 EW f-string， 否 则 它们 将 在 实例 化 时 被 泻 染 。 
在 创建 pattern response 字典 时 ， 机 器 人 可 能 对 这 个 世界 知之 甚 少 。 


以 下 是 一 些 示 例 聊天 机 器 人 的 用 户 故 事 ， 它 们 不 适合 模板 方法 。 

E “我 的 家 在 哪里 ? ”=>“ 你 到 家 需要 步行 5 分 钟 ， 你 需要 指 路 吗 ? ” 

mw “我 在 哪里 ? ”=>“ 你 在 Portland 西南 方向 附近 的 Goose Hollow 旅馆 ”或 “你 在 Jefferson 
街道 西南 方向 2004 号 ” 

E “ 谁 是 总 统 ?””=>“Sauli Niinistö” I% “Barack Obama” 或 “什么 国家 或 公司 ……… 

m “ 谁 说 了 2016 年 世界 职业 棒球 大 赛 ? ”之 “芝加哥 小 能 队 ” 或 “芝加哥 小 熊 队 以 4 比 3 
击败 克利 夫 兰 印第安 人 队 ” 
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m LAT” => “PAP 2:55” w “PF 25355， 到 了 与 乔 会 面 的 时 间 ” 或 …… 

以 下 是 一 些 一 般 的 IQ 测试 问题 ， 这 些 问题 过 于 具体 ， 无 法 保证 每 个 变 体 都 有 对 应 的 模式 - 
回复 对 。 知 识 库 通常 提供 通用 智力 问题 的 答案 。 因 此 ， 这 可 能 是 Mitsuku 聊天 机 器 人 在 最 近 一 次 
Byron Reese 的 测试 中 能 够 给 出 接近 正确 答案 的 方法 。 

加 “哪个 更 大 ， 是 镍 还 是 一 角 钱 ? ”=>“ 物 理 上 或 货币 上 ? ”或 “ 镍 在 物理 上 更 大 日 更 重 ， 

但 在 货币 上 价值 更 低 ”。 


















































D 
























































m AEK, KARER? ” => “KRH, 显然。” 
m ZETEC ETA? ” => “RORATHEASE, MEAE.” 
m “我 应 该 如 何 走出 玉米 化 型 的 迷宫 ? ”=>“ 将 手 放 在 一 面 玉米 墙 上 ， 然 后 跟着 它 走 ， 直 到 


它 成 为 迷宫 的 外 墙 。* 
E “ 海 玻 璃 来 自 哪 里 ””=>“ 垃 圾 …… 幸 运 的 是 ， 沙 子 和 时 间 的 打磨 有 时 会 让 人 类 的 垃圾 ， 
如 破碎 的 瓶子 ， 变 成 美丽 的 宝石 。 
虽然 这 些 不 太 容 易 直 接 转换 为 代码 ， 但 它们 确实 会 直接 转换 为 NLP 流水 线 的 自动 测试 集 。 
这 些 测试 可 用 于 评估 新 的 聊天 机 器 人 方法 或 功能 ， 或 仅 用 于 跟踪 一 段 时 间 内 的 进度 。 如 果 大 家 
能 想到 更 多 聊天 机 器 人 的 IQ 问题 ， 请 将 它们 添加 到 nlpia/data/iq_test.csv 不 断 增长 的 列 
RP, OR, 请 将 它们 包含 在 自己 的 聊天 机 器 人 的 自动 测试 中 。 大 家 永远 不 知道 自己 的 机 器 人 什 
么 时 候 会 让 你 们 大 吃 一 惊 。 
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在 构建 聊天 机 器 人 时 , 我 们 会 需要 一 些 特殊 的 技巧 。 这 些 技巧 将 有 助 于 确保 聊天 机 器 人 不 会 
经 常 出 现 问题 。 


12.8.1 用 带 有 可 预测 答案 的 问题 提问 


当 被 问 到 一 个 不 知道 答案 的 问题 时 ,聊天 机 器 人 可 以 反问 一 个 泪 清 式 问题 。 如 果 这 个 澄清 式 
问题 完全 在 聊天 机 器 人 的 知识 领域 或 个 性 设 定 中 , 则 可 以 预测 人 类 将 要 做 出 的 回答 的 形式 。 然 后 ， 
聊天 机 器 人 可 以 使 用 用 户 的 回复 来 重新 获得 对 话 的 控制 权 ， 并 将 其 引导 回 到 它 所 了 解 的 主题 。 
为 了 避免 用 户 感觉 诅 形 ， 尽 量 使 澄清 式 问题 幽默 一 些 ， 或 积极 和 讨 人 喜欢 ， 或 以 某 种 方式 令 用 
户 满意 : 



































Human: "Where were you born?" 


Sports Bot: "I don't know, but how about those Mets?" 
Therapist Bot: "I don't know, but are you close to your mother?" 





@ ÆA Byron Reese 的 podcast 播客 :“AI Minute” o 
@ 2017 年 吴 恩 达 (Andrew Ng ) 给 斯 坦 福 大 学 商学 院 学 生 的 演讲 。 
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Ubuntu Assistant Bot: "I don't know, but how do you shut down your Ubuntu PC 
at night?" 


我 们 通常 可 以 使 用 语义 搜索 在 聊天 机 器 人 的 知识 库 中 查找 问答 对 、 笑 话 或 有 趣 的 琐事 ， 当 然 
这 些 琐事 至 少 与 用 户 所 询问 的 内 容 相 关 。 


























12.8.2 ”要 有 趣 


有 时 , 生成 过 程 可 能 需要 很 长 时 间 才 能 收敛 得 到 高 质量 的 信息 。 或 者 聊天 机 器 人 可 能 找 不 到 
合适 的 澄清 式 问 题 来 发 问 。 在 这 种 情况 下 ， 聊 天 机 器 人 有 两 种 选择 : 一 是 承认 无 知 ， 二 是 编造 
个 不 合 逻 辑 的 推论 。 

不 合 逻 辑 的 推论 是 一 种 与 用 户 询问 的 内 容 无 关 的 语句 。 这 些 语 句 通常 被 认为 是 不 友好 的 , 有 
时 甚至 是 让 人 不 满 的 。 诚 实 是 亲 社 会 聊天 机 器 人 的 最 佳 策略 ， 而 且 越 坦诚 ,我 们 就 越 有 可 能 与 用 
户 建立 信任 关系 。 如 果 我 们 展示 能 够 处 理 的 回复 或 动作 的 数据 库容 量 ， 用 户 可 能 会 喜欢 了 解 一 下 
聊天 机 器 人 的 “内 心 ”。 我 们 还 可 以 分 享 一 些 无 法 通过 语法 和 样式 检查 器 的 混乱 的 回复 。 我 们 越 诚 
实 ， 用 户 就 越 有 可 能 回报 善心 并 尽力 帮助 聊天 机 器 人 重 回 正轨 。Cole Howard 发 现 ， 用 户 通常 会 通 
过 以 更 清晰 的 方式 重新 绘制 数字 来 引导 他 的 基于 MNIST 训练 的 手写 识别 器 以 获得 正确 的 答案 。 

因此 ， 对 商业 聊天 机 器 人 而 言 ， 我 们 可 能 希望 这 种 没 用 的 回复 听 起 来 引起 哗然 ,或 者 会 今 人 
分 心 、 讨 人 喜欢 或 十 分 幽默 。 并 且 ， 我 们 可 能 还 希望 能 够 确保 随机 选择 回复 ， 从 而 让 人 类 认为 回 
复 是 随机 的 。 例 如 ， 不 要 经 常 说 重复 的 话 。 或 者 ， 根 据 时 间 的 推移 ， 使 用 不 同 的 句子 结构 、 形 
式 和 风格 。 通 过 这 种 方式 ,我 们 可 以 监测 用 户 的 回复 并 评估 他 们 的 情绪 ， 以 确定 哪些 不 合 逻 辑 的 
推论 是 最 不 令 用 户 厌烦 的 。 




























































































12.8.3 当 其 他 所 有 方法 都 失败 时 ， 搜 索 


如 果 机 器 人 无 法 想 出 任何 要 说 的 话 , 请 尝试 像 搜索 引擎 或 搜索 栏 一 样 进行 搜索 , 搜索 可 能 与 
收 到 的 任何 问题 相关 的 网 页 或 内 部 数据 库 记 录 。 但 是 在 提取 页 面包 含 的 所 有 信息 之 前 , 一 定 要 询 
问 用 户 页 面 的 标题 是 否 对 用 户 有 用 。Stack Overflow 、 维 基 百 科 和 Wolfram Alpha 都 是 很 好 的 资源 ， 
随时 供 各 种 机 器 人 使 用 〈 因为 谷歌 会 这 样 做 并 且 用 户 也 这 样 期 望 )。 












































12.8.4 BBR Kil 








如 果 具 有 一 些 用 户 乐意 听 到 的 笑话 ， 以 及 一 些 回 复 或 资源 的 链接 ,那么 一 般 情况 下 ,请 使 用 
这 些 而 不 是 问题 的 最 佳 匹配 来 进行 回复 , 尤其 在 匹配 率 较 低 的 情况 下 更 需要 如 此 。 这些 笑 话 或 资 
源 可 能 有 助 于 将 用 户 带 回 到 大 家 熟悉 且 拥 有 大 量 训 练 集 的 对 话 路 径 中 。 
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D 人 类 低估 了 随机 序列 重复 的 次 数 (参见 本 书 下 载 资源 中 的 paper530.pdf 文件 )。 
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12.8.5 成 为 连接 器 
能 够 成 为 社交 网 络 枢纽 的 聊天 机 器 人 很 快 就 会 受到 用 户 的 欢迎 ,在 聊天 论坛 上 将 用 户 介绍 给 
HWA, 或 者 是 那些 写 过 用 户 已 写 内 容 的 人 。 或 者 将 用 户 导向 博客 帖子 、 模 因 、 聊 天 频道 或 其 他 
和 他 们 可 能 感 兴趣 的 内 容 相 关 的 网 站 。 一 个 好 的 机 器 人 要 有 一 个 便于 使 用 的 热门 链接 列表 , 在 对 
话 开始 变 得 没有 新 意 时 使 用 。 
WADA: 你 可 能 想见 见 @SuzyQ， 她 最 近 问 了 很 多 这 类 问题 。 她 或 许可 以 帮助 你 找到 
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12.8.6” 变 得 有 情感 


谷歌 的 收 件 箱 电子 邮件 回复 程序 类 似 于 我 们 想 要 解决 的 对 话 聊天 机 器 人 问题 。 自动 回复 程序 
必须 根据 收 到 的 电子 邮件 的 语义 内 容 提出 回复 建议 。 但 是 , 在 电子 邮件 的 往来 中 , 不 太 可 能 出 现 
针对 邮件 的 一 长 串 回复 。 对 于 电子 邮件 自动 回复 程序 ,提问 文本 通常 比 对 话 聊天 机 器 人 中 的 长 得 
多 。 尽管 如 此 , 这 两 个 问题 都 涉及 针对 输入 文本 生成 文本 回复 。 解 决 其 中 一 个 问题 的 许多 技术 可 
能 也 适用 于 另 一 个 问题 。 

尽管 谷歌 可 以 访问 数 十 亿 封 电子 邮件 ， 但 Gmail 收 件 箱 中 的 “智能 回复 ”功能 中 给 大 家 推送 
的 配对 回复 往往 倾向 于 简短 、 通 用 、 直 白 。 如 果 想 针对 普通 电子 邮件 用 户 实现 回复 的 正确 性 的 最 大 
化 , 语义 搜索 方法 可 能 会 产生 相对 通用 、 直 白 的 回复 。 通 用 回复 不 太 可 能 有 很 多 个 性 或 情感 的 因素 。 
因此 ， 耸 歌 使 用 了 一 个 出 人 意料 的 语料库 〈 浪漫 小 说 )， 为 他 们 建议 的 回复 增加 了 一 些 情感 因素 。 

事实 证 明 ， 浪 漫 小 说 倾向 于 遵循 可 预测 的 情节 ， 并 且 附 带 能 够 容易 地 剖析 和 模仿 的 情感 丰富 的 
对 话 。 它 包含 了 多 种 情感 。 现 在 我 不 确定 谷歌 是 如 何 从 浪漫 小 说 中 收集 类 似 于 “ 那 太 棒 了 ! 算 我 一 
个 ! ”或 “ 酷 ! 我 会 在 那里 。” 的 短语 ,但 他 们 声称 这 是 他 们 用 Smart Reply 建议 生成 情绪 感叹 的 来 源 。 
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这 里 创建 的 混合 型 聊天 机 器 人 可 以 灵活 地 应 用 于 最 常见 的 现实 世界 的 应 用 程序 。 事 实 上 , 大 
家 可 能 在 本 周 的 某 个 时 候 与 下 面 这 样 的 聊天 机 器 人 进行 了 互动 : 
图 客服 助手 ; 
销售 助手 ; 
营销 (垃圾 邮件 ) 机 器 人 ; 
玩具 或 陪伴 机 器 人 ; 
视频 游戏 AT; 
移动 助手 ; 
家 庭 自 动 化 助手 ; 
可 视 化 解释 器 ; 









































352 第 12 台 聊 天 ( 对 话 引 擎 ) 





国治 疗 师 机 天 人 ; 
e 自动 电子 邮件 回复 建议 。 
并 且 大 家 可 能 会 越 来 越 多 地 遇 到 类 似 于 本 章 中 构建 的 聊天 机 器 人 。 用 户 界 面 设计 正在 渐渐 摆 
脱 机 器 的 严格 逻辑 和 数据 结构 的 约束 。 越 来 越 多 的 机 器 正在 被 引导 如 何 与 人 类 通过 自然 、 流 畅 的 
对 话 交 互 。 随 着 聊天 机 器 人 变 得 更 加 有 用 ， 同 时 更 少 让 用 户 感到 诅 形 ,“ 声 音 优 先 ”的 设计 模式 
正 变 得 越 来 越 流行 。 这 种 对 话 系统 方法 给 用 户 带 来 比 点 击 按钮 和 向 左 滑动 更 丰富 、 更 复杂 的 用 户 
体验 。 随 着 聊天 机 器 人 在 幕后 与 我 们 交互 ， 它 们 正在 越 来 越 深 入 地 融入 到 集体 意识 中 。 
不 管 是 出 于 个 人 兴趣 还 是 商业 利益 ， 现 在 大 家 已 经 学 会 了 所 有 关于 构建 聊天 机 器 人 的 方法 ， 
并 且 大 家 已 经 学 会 了 如 何 结合 生成 式 对 话 模 型 、 语 义 搜索 、 模 式 匹配 和 信息 提取 ( 知识 库 ) 来 生 
成 一 个 看 起 来 非常 智能 的 聊天 机 器 人 。 
大 家 已 经 掌握 了 智能 聊天 机 器 人 所 有 的 关键 NLP 组 件 ， 剩 下 的 唯一 挑战 就 是 赋予 它 自己 设 
计 的 个 性 。 在 耗 尽 了 笔记 本 电脑 中 的 内 存 、 硬 盘 和 CPU 资源 之 后 ， 大 家 可 能 想 要 “扩展 它 ” 让 
它 可 以 继续 学 习 。 我 们 将 在 第 13 章 中 介绍 如 何 做 到 这 一 点 。 































































































12.10 小 结 
E 通过 组 合 多 种 经 过 验证 的 方法 ,我 们 可 以 构建 智能 对 话 引 擎 。 
m 打破 4 种 主要 的 聊天 机 天 人 实现 方法 产生 的 回复 之 间 的 “联系 ”是 智能 的 关键 之 一 。 
m 我 们 可 以 教会 机 融 一 辈子 的 知识 ， 而 无 须 花 一 辈子 的 时 间 给 它们 编程 。 
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本 章 主要 内 容 

E 扩展 NLP AKA 

E 使 用 索引 加 速 搜索 

图 批 处 理 减 少 内 存 占 用 

加 并 行 化 加 速 NLP 

E 在 GPU 上 运行 NLP 模型 训练 过 程 





在 第 12 章 中 ， 我 们 学 习 了 如 何 使 用 NLP 工具 箱 中 的 所 有 工具 来 构建 能 够 进行 对 话 的 NLP 
流水 线 。 我 们 基于 小 型 数据 集 演示 了 上 述 聊天 机 器 人 对 话 能 力 的 简单 示例 。 该 对 话 系统 的 类 人 程 
度 或 者 智商 似乎 受到 训练 数据 的 限制 。 如 果 可 以 通过 扩展 以 处 理 更 大 规模 的 数据 集 , 那么 我 们 前 
面 学 到 的 大 多 数 NLP 方法 都 能 提供 越 来 越 好 的 结果 。 

大 家 可 能 已 经 注意 到 ,如 果 在 大 型 数据 集 上 运行 我 们 给 出 的 某 些 示 例 , 那么 计算 机 会 失去 响 
MEZA. Wet nlpia.data.loaders.get_data () 获得 的 某 些 数据 集会 超过 大 部 分 PC 或 
笔记 本 电脑 的 内 存 (RAM) 

除了 内 存 ， 处 理 器 是 NLP 流水 线 的 另 一 个 瓶颈 。 即 使 拥有 无 限 的 内 存 ， 对 于 大 规模 语料库 ， 
我 们 学 到 的 一 些 更 复杂 的 算法 也 需要 处 理 几 天 的 时 间 。 

因此 ， 我 们 提出 的 算法 需要 最 小 化 所 需 的 资源 ， 包 括 易 失 性 存储 (RAM ) 和 处 理 (CPU 周 
期 ) 资源 。 




























































































8.1 AS ( 数据 ) 未 必 是 好 事 


随 着 我 们 向 流水 线 中 添加 更 多 数据 和 更 多 知识 ， 机 需 学 习 模 型 需要 越 来 越 多 的 内 存 、 硬 
盘 和 CPU 周期 进行 训练 。 更 糟糕 的 是 ,一 些 方 法 依赖 于 O(n”) 算 法 来 计算 语句 或 文档 的 向 量 
表示 之 间 的 距离 或 相似 度 。 对 于 这 些 算 法 ， 添 加 数据 时 处 理 速度 会 下 降 得 更 快 。 语 料 库 中 添 
加 的 每 个 句子 都 会 占用 更 多 的 内 存 字 节 和 更 多 的 CPU 周期 来 处 理 ， 即 使 对 于 中 等 规模 的 语 料 
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库 ， 上 述 算法 也 是 不 现实 的 。 

有 两 种 通用 方法 可 以 帮助 大 家 避免 这 些 问 题 ， 从 而 将 NLP 流水 线 扩展 到 更 大 规模 的 数据 集 上 : 

mw 增强 可 扩展 性 一 一 改进 或 优化 算法 ; 

m 水 平 扩展 一 一 算法 并 行 化 以 同时 运行 多 个 计算 实例 。 

在 本 章 中 ， 我 们 将 学 习 上 述 两 种 方法 。 

使 算法 更 加 智能 几乎 一 直 是 加 速 处 理 流水 线 的 最 好 方法 , 所 以 我 们 先 介 绍 该 方法 。 我 们 将 并 
行 化 留 到 本 章 的 后 半 部 分 ， 以 帮助 我 们 更 快 地 运行 打磨 、 优 化 之 后 的 算法 。 




















13.2 优化 NLP 算法 


大 家 在 前 几 章 中 看 到 的 有 些 算 法 具有 较 高 的 算法 复杂 度 ， 通 常 是 平方 阶 O(n ) 甚 至 更 高 ， 比 如 : 

E 根据 word2vec 向 量 相似 度 编撰 同义词 词典 ; 

E 根据 主题 向 量 对 网 页 进行 聚 类 ; 

E 根据 主题 向 量 对 期 刊 文章 或 其 他 文档 聚 类 ; 

加 在 问答 语料库 中 对 问题 聚 类 以 自动 生成 FAQ。 

所 有 这 些 NLP 挑战 都 属于 编 人 索引 的 搜索 或 上 最 近邻 (上 nearest neighbor, KNN ) 向 量 搜索 的 
范畴 。 我 们 在 接 下 来 的 几 节 将 讨论 该 扩展 性 挑战 : 算法 优化 。 我 们 将 介绍 一 种 特殊 的 算法 优化 方法 ， 
称 为 索引 化 (indexing )。 索 引 化 可 以 帮助 解决 大 多 数 KNN 向 量 搜索 问题 。 在 本 章 的 后 半 部 分 ,我 们 
将 展示 如 何 使 用 图 形 处 理 单元 (GPU ) 的 数 千 个 CPU 核 来 实现 自然 语言 处 理 的 高 度 并 行 化 。 







































































13.2.1 索引 


大 家 可 能 每 天 都 在 使 用 自然 语言 索引 。 当 我 们 翻 到 教科 书 背面 想 查找 感 兴趣 的 主题 所 在 的 页 
面 时 ， 和 常常 使 用 自然 语言 文本 索引 (也 称 为 倒 排 索引 )。 这 里 的 页 面 就 是 文档 ， 而 词 来 自 每 篇 文档 
的 词 袋 (BOW ) 向 量词 库 。 每 次 在 Web 搜索 工具 中 输入 搜索 字符 串 时 ， 都 会 使 用 文本 索引 。 为 了 
扩展 NLP 应 用 ,需要 为 文档 语义 向 量 ( 如 LSA 文档 主题 向 量 或 word2vec 词 向 量 ) 建立 索引 。 

前 面 的 章节 中 提 到 了 传统 的 “ 倒 排 索引 ”, 用 于 根据 查询 中 的 词 在 文档 中 搜索 一 组 词 或 词 条 。 
但 是 我 们 还 没有 谈 到 如 何 用 于 相似 文本 的 近似 KNN 搜索 。 对 于 KNN 搜索 ， 我 们 希望 找到 相似 
的 字符 串 ， 即 使 它们 没有 包含 完全 一 样 的 词 。 编 辑 距离 是 诸如 fuzzywuzzy 和 ChatterBot 之 
类 的 软件 包 用 于 查找 相似 字符 串 的 一 种 距离 度量 方法 。 

数据 库 实现 了 多 种 文本 索引 , 从 而 可 以 快速 找到 文档 或 字符 串 。SQL 查询 允许 我 们 搜索 与 模 
式 匹配 的 文本 ， 例 如 SELECT book title from manning book WHERE book title LIKE 
'Natural Language%in Action'。 该 查询 将 找到 所 有 以 “Natural Language” FKY Manning 
出 版 社 出 版 的 “in Action” 系 列 书籍 的 标题 。 此 外 有 许多 数据 库 的 3-gram (trgm ) 索引 可 帮助 
大 家 快速 (在 常数 时 间 内 ) 找到 相似 的 文本 ， 甚 至 不 需要 指定 模式 ， 而 只 需 构造 与 被 查找 的 文本 
相似 的 文本 查询 。 
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这 些 用 于 索引 文本 的 数据 库 技 术 非 常 适用 于 文本 文档 或 任何 类 型 的 字符 串 。 但 是 它们 在 诸如 
word2vec 向 量 或 稠密 文档 -主题 向 量 之 类 的 语义 向 量 上 效果 不 佳 。 这 是 因为 传统 的 数据 库 索 引 
依赖 的 是 它们 索引 的 对 象 ( 文档 ) ERA, RARER 

加 字符 串 (字符 序列 ) 是 离散 的 : 字符 数量 有 限 。 

加 TF-IDF HERRI: 在 任何 给 定 的 文档 中 ， 大 多 数 词 项 的 出 现 频率 为 0。 

E BOW HEEREMA: 词 项 是 离散 的 ， 大 多 数 词 在 文档 中 的 出 现 频率 为 0。 

这 就 是 为 什么 网 页 搜索 、 文 档 搜索 或 地 理 位 置 搜索 可 以 在 毫秒 内 执行 的 原因 。 几 十 年 来 , 该 
方法 一 直 在 有 效 地 运行 (0 (1) )。 

是 什么 原因 导致 连续 向 量 如 文档 -主题 LSA 向 量 (第 4 章 ) 或 word2vec 向 量 (第 6 章 ) 
难以 索引 ? 毕 竞 ， 包含 经 纬度 和 高 度 的 地 理 信息 系统 ( GIS ) 向 量 看 上 去 和 上 述 向 量 类 似 ,但 是 
用 Google Maps 仍然 可 以 在 数 毫 秒 内 完成 GIS 搜索 。 实 际 上 这 里 面 非常 幸运 的 是 ，GIS HERE 
含 3 个 连续 值 ， 因 此 可 以 基于 边界 框 构建 索引 ， 这 些 边界 框 将 GIS 对 象 聚 集 到 离散 的 分 组 中 。 

下 面 几 种 不 同 的 索引 数据 结构 可 以 解决 连续 向 量 的 索引 问题 。 

E KD 树 : Elasticsearch 工具 在 即将 发 布 的 版 本 中 将 实现 多 达 8 个 维度 的 索引 。 

E Rtree: PostgreSQL 在 > = 9.0 的 版 本 中 实现 了 这 一 功能 ， 最 多 可 文 持 200 个 维度 。 

E Minhash 或 局 部 敏感 哈 希 : pip install lshash3。 

上 述 工作 在 一 定 的 维度 范围 内 可 用 ， 这 个 范围 大 约 是 12 维 以 内 。 如 果 大 家 自己 尝试 过 优化 
数据 库 索 引 或 局 部 敏感 哈 希 ,就 会 发 现 保持 常数 时 间 的 查找 速度 变 得 越 来 越 难 。 在 大 约 12 维 时 ， 
这 个 任务 就 基本 上 难以 完成 了 。 
那么 如 何 处 理 300 维 的 word2vec 向 量 或 100 多 维 的 LSA 语义 向 量 呢 ?解决 方案 是 近似 算 
法 。 近 似 最 近邻 搜索 算法 不 会 试图 给 出 与 查询 向 量 最 相似 的 精确 文档 向 量 集 ， 而 只 是 试图 找到 一 
些 相对 较 好 的 匹配 结果 ， 而 且 它 们 的 匹配 结果 通常 非常 好 ， 在 前 10 名 左右 的 搜索 结果 中 几乎 不 
会 遗漏 任何 更 接近 的 匹配 。 

但 是 如 果 使 用 SVD 或 嵌入 的 方法 将 词 条 维度 (要 处 理 的 词汇 量规 模 ， 通 常 为 百 万 级 ) 降低 
到 200 或 300 个 主题 维度 , 那么 情况 就 大 不 相同 了 。 这 里 主要 有 3 点 不 同 。 第 一 点 不 同 是 问题 简 
化 了 : 降 维 后 搜索 的 维度 更 少 了 ( 想 想 数据 库 表 中 的 列 )。 另 外 两 点 不 同 具 有 挑战 性 : 降 维 后 的 
向 量 为 连续 值 稠密 向 量 。 




































































































































































13.2.2 ”高 级 索引 
语义 向 量 在 所 有 边界 框 中 检查 难以 查找 的 对 象 。 这 些 对 象 之 所 以 难以 查找 ， 是 因为 它们 : 


m 高 维 ; 

E 实数 值 ; 

E 稠密 。 

上 一 节 我 们 引入 了 两 个 新 的 难题 代 禁 了 维 数 灾难 。 向 量 现在 是 稠密 的 (没有 可 以 忽略 的 零 ) 
和 连续 的 ( 实数 值 )。 
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在 稠密 的 语义 向 量 中 ， 每 个 维度 都 是 一 个 有 意义 的 值 。 我 们 不 能 再 味 过 或 忽略 用 于 填充 
TF-IDF 表 或 BOW 表 的 零 值 ( 见 第 2 章 和 第 3 章 ) 即使 通过 加 1 平滑 ( 拉 普 拉 斯 平滑 ) 填充 TF-IDF 
向 量 中 的 空 值 , 得 到 的 稠密 表 中 也 仍然 会 有 一 些 不 变 的 值 , 可 以 让 我 们 把 稠密 表 当 作 稀 琉 和 矩阵 处 
理 。 但 是 现在 我 们 的 向 量 中 不 再 存在 零 值 或 高 频 值 。 每 个 主题 对 于 每 篇 文档 都 有 若干 与 其 对 应 的 
权重 。 当 然 这 不 是 一 个 无 法 解决 的 问题 。 降 维 不 止 可 以 弥补 上 述 稠密 问题 。 

这 些 稠密 向 量 中 的 值 是 实数 。 但 是 还 有 一 个 更 大 的 问题 。 语义 向 量 中 的 主题 权重 值 可 以 为 正 
或 负 , 并 不 限于 离散 字符 或 整数 值 。 与 每 个 主题 相关 联 的 若干 权重 现在 是 连续 的 实数 值 ( 浮 点 数 )。 
像 浮 点 数 这 样 的 非 离散 值 是 无 法 索引 的 。 它 们 不 再 只 是 出 现 或 者 不 出 现 , 它们 不 能 通过 独 热 编码 
向 量化 后 作为 特征 输入 神经 网 络 。 并 且 , 我 们 肯定 无 法 在 倒 排 索引 表 中 创建 一 个 条 目 ， 该 条 目 指 
向 是 否 出 现 该 特征 或 主题 的 所 有 文档 。 因 为 现在 在 所 有 文档 中 ， 主 题 都 有 不 同 程度 的 存在 。 

如 果 能 找到 有 效 的 搜索 或 KNN 算法 ， 就 可 以 解决 本 章 开 头 提 出 的 自然 语言 搜索 问题 。 一 种 
用 于 优化 此 类 问题 的 算法 的 方法 是 牺牲 确定 性 和 精确 性 , 来 换取 巨大 的 速度 提升 。 这 称 为 近似 最 
近邻 (approximate nearest neighbors, ANN ) 搜索 。 例 如 ，DuckDuckGo 搜索 不 会 试图 找 出 与 我 
们 搜索 的 语义 向 量 最 匹配 的 结果 。 相 反 ， 它 会 尝试 提供 10 个 左右 最 接近 的 近似 匹配 。 

幸运 的 是 ， 很 多 公司 都 开源 了 大 量 使 ANN 更 具 可 扩展 性 的 研究 软件 。 这 些 研究 小 组 通过 机 
Hap, 提供 了 最 简单 、 最 快速 的 ANN 搜索 软件 。 下 面 是 在 竞争 中 出 现 的 一 些 Python 包 , 这 
包 已 经 通过 了 印度 科技 大 学 (ITU ) 对 于 NLP 问题 的 标准 基准 测试 : 

E Spotify 的 Annoy” 

BallTree ( 使 用 nmslib ) ~ 
Brute Force using Basic Linear Algebra Subprograms library ( BLAS ) = 


@ 
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Brute Force using Non-Metric Space Library ( NMSlib ) 


a 
a 
E Dimension reductiOn and LookuPs on a Hypercube for efflcient Near Neighbor ( DolphinnPy ) © 
E Random Projection Tree Forest (rpforest ) 7 

a 


Locality sensitive hashing (datasketch ) ý 





详 见 标题 为 “GitHub - spotify/annoy: Approximate Nearest Neighbors in C++/Python optimized for memory 
usage and loading/saving to disk” 的 网 页 。 

见 标 题 为 “GitHub - nmslib/nmslib: Non-Metric Space Library (NMSLIB): An efficient similarity search 
ibrary and a toolkit for evaluation of k-NN methods for generic non-metric spaces” 的 网 页 。 

羊 见 标题 为 “1.6. Nearest Neighbors 一 scikit-learn 0.19.2 documentation” AYP IL. 
羊 见 标题 为 “GitHub - nmslib/nmslib: Non-Metric Space Library (NMSLIB): An efficient similarity search 
library and a toolkit for evaluation of k-NN methods for generic non-metric spaces” 的 网 页 。 


= w 


a g 





见 标题 为 “GitHub - ipsarros/DolphinnPy: High-dimensional approximate nearest neighbor in python” %3 


见 标题 为 “GitHub - lyst/rpforest: It is a forest of random projection trees” 的 网 页 。 
见 标题 为 “GitHub - ekzhu/datasketch: MinHash, LSH, LSH Forest, Weighted MinHash, Hyper-LogLog, 
HyperLogLog++” 的 网 页 。 
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Multi-indexing hashing ( MIH ) ” 

Fast Lookup of Cosine and Other Nearest Neighbors ( FALCONN ) ‘ 
Fast Lookup of Approximate Nearest Neighbors ( FLANN ) ? 
Hierarchical Navigable Small World (HNSW ) ( ZE nmslib t} ) ° 


K-Dimensional Trees (kdtree ) ® 


© 
nearpy 


这 些 索引 方法 中 最 简单 的 方法 之 一 是 在 Spotify 提供 的 一 个 名 为 Annoy 的 软件 包 中 实现 的 。 


13.2.3 ”基于 Annoy 的 高 级 索引 


最 近 在 gensim 的 word2vec (KeyedVectors ) 更 新 中 增加 了 一 种 高 级 索引 方法 。 大 家 
现在 可 以 在 数 毫秒 内 检索 任何 向 量 的 近似 最 近邻 , 该 功能 开 箱 即 用 。 但 正如 我 们 在 本 章 开头 所 讨 
论 的 那样 ， 大 家 需要 对 任何 类 型 的 高 维 稠密 连续 向 量 集 使 用 索引 ， 而 不 仅仅 是 对 word2vec 向 
量 。 我 们 可 以 使 用 Annoy 对 word2vec 向 量 建立 索引 并 将 其 结果 与 gensim fy KeyedVectors 
索引 进行 对 比 。 首 先 ， 需 要 像 第 6 章 中 那样 加 载 word2vec 向 量 ， 如 代码 清单 13-1 所 示 。 


代码 清单 13-1 ”加载 word2vec 向 量 


>>> from nlpia.loaders import get_data 

>>> wv = get_data('word2vec') 

LOOS | HHHHHHHFEFEFEPEPEPEPEPHEPHEPHEE | = 402111/402111 [01:02<00:00, 6455.57it/s] 
>>> len(wv.vocab), len(wv[next (iter (wv.vocab) )]) 

(3000000, 300) 

>>> wv.vectors.shape 
(3000000, 300) 








如 果 大 家 还 没有 把 GoogleNews-vectors-negative300.bin.gz 下 载 到 
nlpia/src/nlpia/bigdata/ 目 录 ， 那 么 可 以 通过 get data() 来 下 载 


初始 化 一 个 空 的 Annoy 索引 ， 使 用 与 上 述 向 量 同 样 的 维 数 ， 如 代码 清单 13-2 所 示 。 


代码 清单 13-2 ”初始 化 300 4 Annoylndex 





>>> from annoy import AnnoyIndex 
>>> num_words, num_dimensions = wv.vectors.shape 


人 
14n HA leN 2 
>>> index = AnnoyIndex (num dimensions) 原始 的 Google ee 


模型 包含 300 万 个 词 向 量 , 每 
个 词 向 量 有 300 维 











FE 见 标题 为 “GitHub - norouzi/mih: Fast exact nearest neighbor search in Hamming distance on binary codes 
with Multi-index hashing” 的 网 页 。 

fF 见 标 题 为 “FALCONN: PyPI” 的 网 页 。 

EF 见 标 题 为 “FLANN - Fast Library for Approximate Nearest Neighbors” 的 网 页 。 

EE 见 标题 为 “nmslib/hnsw.h at master: nmslib/nmslib” 的 网 页 。 

EF 见 KD-Tree 的 GitHub 代码 库 。 

EJL Pypi 的 NearPy 项 目 。 


any 


any 








OOOO O 
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现在 ,可 以 将 word2vec 向 量 逐 个 添加 到 Annoy 索引 中 。 我 们 可 以 将 此 过 程 视 为 逐 页 读 取 
一 本 书 ， 并 将 每 个 词 对 应 的 页 码 放 在 书后 倒 排 索引 表 中 的 过 程 。 显 然 ，ANN 搜索 要 复杂 得 多 ， 
但 Annoy 将 其 进行 了 简化 。 具 体 做 法 参见 代码 清单 13-3。 


代码 清单 13-3 ”把 每 一 个 词 向 量 添加 到 Annoylndex 














妇 dm0 接 受 一 个 迭代 器 并 返回 一 个 迭代 吉 (如 enumerate0) ), .index2word 是 词汇 表 中 所 有 300 万 词 条 的 未 排序 
然后 在 循环 中 插入 代码 以 显示 一 个 进度 条 列表 ， 相 当 于 将 整数 索引 ( 0-2999999 ) 映射 到 词 





条 ('</s>' 映 射 为 'snowcapped_Caucasus' ) 
>>> from tqdm import tqdm 
>>> for i, word in enumerate (tqdm(wv.index2word) ): 
aes index.add_item(i, wv[word]) 
22% | tHE HEE? | 649297/3000000 [00:26<01:35, 24587.52it/s] 


AnnoyIndex 对 象 需要 执行 的 最 后 一 个 操作 是 读 取 整 个 索引 并 尝试 将 向 量 聚 类 成 可 以 在 树 
状 结构 中 索引 的 小 块 ， 如 代码 清单 13-4 所 示 。 





代码 清单 13-4 基于 15 棵 树 创建 欧 几 里 得 距离 索引 














这 只 是 一 个 经 验 法 则 , 如 果 这 个 索引 无 法 满足 你 所 关注 的 指标 
(内 存 占用 、 查 找 性 能 、 索 引 性 能 )， 或 者 对 于 你 的 应 用 来 说 精 
度 不 够 ， 那 么 你 可 能 需要 优化 这 个 超 参数 











>>> import numpy as np 














>>> num trees = int (np.log(num_words) .round (0) ) < 

>>> num trees 

15 300 万 个 向 量 需 要 round(In(3000000)) => 15 个 

>>> index.build (num trees) 索引 树 一 一 在 笔记 本 电脑 上 需要 处 理 几 分 钟 

>>> index.save('Word2vec euc index.ann') 、 
ed 将 索引 保存 到 本 地 文件 并 释放 
>>> w2id = dict (zip (range (len (wv.vocab)), wv.vocab) ) 内 存 ， 但 可 能 需要 几 分 钟 





这 里 生成 了 15 个 树 状 结构 (大 约 是 300 万 的 自然 对 数 )， 因 为 我 们 需要 搜索 300 万 个 向 量 。 
如 果 你 有 更 多 的 向 量 或 者 希望 索引 更 快 、 更 精确 ,那么 可 以 增加 树 的 数量 , 请 注意 不 要 太 多 , 否 
则 需要 等 待 一 段 时 间 才能 完成 索引 过 程 。 

现在 ,我 们 可 以 试 着 在 索引 中 查找 词汇 表 中 的 词 ， 如 代码 清单 13-5 所 示 。 


代码 清单 13-5 ”基于 Annoylndex 查找 Harry_Potter 的 邻居 





p= 全 
gensim 的 KeyedVectors vocat; TRUR gensim 的 Vocab 对 象 可 以 告诉 大 家 2-gram 
Vocab 对 象 ， 而 不 是 原始 字符 串 或 索引 号 “Harry Potter” 在 Google News 语料库 中 被 











>>> wv.vocab['Harry Potter'].index 提 及 的 次 数 …… 将 近 300 万 次 
9494 
>>> wv.vocab['Harry Potter'].count < 
2990506 
>>> w2id = dict (zip( 
wv.vocab, range (len (wv.vocab)))) 创建 一 种 类 似 于 wv.vocab 的 映射 关系 ， 





2 将 词 条 映射 到 它们 的 索引 值 (整数 ) 


13.2 优化 NLP 算法 359 











9494 

>>> ids = index.get nns by item( 

P w2id['Harry_Potter'], 11) < 

>>> ids 

[9494, 32643, 39034, 114813, ..., 113008, 116741, 113955, 350346] 

>>> [wv.vocab[i] for i in _] Annoy 首先 返回 的 是 目标 向 量 ， 所 以 如 果 
T A A OT 我 们 想 要 除 目标 向 量 之 外 的 10 个 最 近邻 


['Harry_Potter', 
'Narnia', 
'Sherlock_Holmes', 
'Lemony_Snicket', 
'Spiderwick_Chronicles', 
'Unfortunate_Events', 
'Prince_Caspian', 
'Eragon', 
'Sorcerer_Apprentice', 
'RL_Stine'] 


Annoy 列 出 的 10 个 最 近邻 大 多 是 与 Harry Potter 同样 类 型 的 书籍 ， 但 它们 并 不 是 书 名 、 电 
影 名 或 角色 名 的 精确 同义词 。 所 以 这 里 的 结果 肯定 是 近似 最 近邻 。 另 外 ， 请 记 住 ，Annoy 使 用 
的 算法 是 随机 的 ， 类 似 于 随机 森林 机 器 学 习 算 法 。 因此 ， 大 家 的 结果 可 能 与 这 里 看 到 的 结果 不 
同 。 如 果 需 要 同样 的 结果 , 那么 可 以 使 用 AnnoyIndex.set seed() 方 法 初始 化 随机 数 生 成 器 。 

FEX Annoy 索引 漏 掉 了 很 多 更 近 的 邻居 , 提供 了 搜索 词 的 通用 近邻 而 不 是 最 近 的 10 个 近 
46, MA gensim 怎么 样 呢 ? 如 果 使 用 gensim 内 置 的 KeyedVector 索引 来 检索 正确 的 最 近 
10 个 邻居 ， 会 出 现 什 么 情况 呢 ? 具体 做 法 参见 代码 清单 13-6。 








邻居 ， 就 必须 请 求 11 个 最 近邻 




















代码 清单 13-6 ”基于 gensim.KeyedVectors 索引 返回 的 10 个 Harry_Potter 最 近邻 


>>> [word for word, similarity in wv.most_similar('Harry Potter', topn=10) ] 
['JK_Rowling_ Harry Potter', 
"JK _Rowling', 
"boy_wizard', 
"Deathly _Hallows', 
"Half Blood_Prince', 
"Rowling', 
"Actor _Rupert_Grint', 
"HARRY Potter', 
"wizard_Harry Potter', 
"HARRY _POTTER' ] 


现在 ， 它 看 起 来 像 一 个 更 相关 的 前 10 名 同义词 表 。 这 里 列 出 了 正确 的 作者 、 标 题 的 其 他 拼 
写 形式 、 系 列 书 中 其 他 书籍 的 标题 ， 甚 至 哈 利 波 特 电影 中 的 演员 。 但 是 Annoy 的 结果 在 某 些 
情况 下 可 能 会 有 用 ， 例 如 当 对 一 个 词 的 类 型 或 一 般 意义 而 不 是 其 精确 同义词 更 感 兴趣 时 。 这 会 
非常 酶 。 

但 是 Annoy 索引 近似 值 确实 走 了 捷径 。 要 解决 该 问题 ， 请 使 用 余弦 距离 度量 〈 而 不 是 欧 几 里 





























D Annoy 使 用 随机 投影 来 生成 局 部 敏感 哈 希 。 
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得 距离 ) 重建 索引 并 添加 更 多 树 。 这 应 该 能 够 提高 最 近邻 的 精确 性 ， 并 使 其 结果 更 接近 gensim。 
具体 做 法 参见 代码 清单 13-7。 


代码 清单 13-7 创建 一 个 余弦 距离 索引 


>>> index_cos = AnnoyIndex ( 





ose f=num_dimensions, 
>>> for 
if not i % 100000: 

print('{}: {}!' 
index_cos.add_item 


metric='angular') 


i, word in enumerate (wv.index2word): 


.format (i, word) ) 
(i, wv[word]) 


< 


metric='angular' #é 7p {EH angular 
(RIZ) EREEREER A o 

大 家 可 以 选择 “angular”( 余弦 距 
离 ) “euclidean” ( 欧 几 里 得 距离 )、 


0: </s> i ` 
100000: “manhattan” ( 曼哈顿 距离 ) 或 


“hamming” ( 海 明 距 离 ) 


distinctiveness 


如 果 你 不 喜欢 ttdm， 也 可 以 用 
另 一 种 方式 来 跟踪 程序 进度 








2900000: BOARDED_UP 


现在 我 们 来 构建 两 倍数 量 的 树 状 结构 ， 并 设置 随机 种 子 ， 这 样 就 可 以 获得 与 代码 清单 13-8 
中 显示 的 一 样 的 结果 。 


代码 清单 13-8 创建 一 个 余弦 距离 索引 


aAA ROSE Coss BETA SO) 30 是 int(np.log(num_vectors).round(0)) 
>>> index _cos.save('Word2vec_cos_index.ann') 的 计算 结果 ， 是 之 前 的 两 倍 
HFN, 9 H 


True 


这 个 索引 需要 花费 两 倍 的 时 间 来 运行 , 但 是 一 旦 完成 , 我 们 能 够 期 望 结果 更 接近 于 gensim 
产生 的 结果 。 现 在 我 们 看 看 在 更 精确 的 索引 上 ， 最 近邻 和 “Harry Potter” 这 个 词 项 的 近似 程度 ， 
如 代码 清单 13-9 所 示 。 

















代码 清单 13-9 在 余弦 距离 空间 里 Harry_Potter 的 邻居 





>>> ids_cos = index_cos.get_nns_by_item(w2id['Harry_Potter'], 10) 

>>> ids_cos 

[9494, 37681, 40544, 41526, 14273, 165465, 32643, 420722, 147151, 28829] 
>>> [wv.index2word[i] for i in ids_cos] 


大 家 可 能 无 法 复 现 同样 的 结果 。LSH 
的 随机 投影 是 随机 的 。 如 果 需 要 复 现 
结果 , 请 使 用 Annoylndex.set_seed() 
方法 





['Harry_Potter', 
'JK_Rowling', 
"Deathly _Hallows', 
"Half Blood Prince'y 
Twilight", 
'Twilight_saga', 




















'Narnia', 
'Potter_mania', 
'Hermione_Granger', 
'Da Vinci Code'] 


结果 看 起 来 好 了 一 点 ， 至 少 列 出 了 正确 的 作者 。 我 们 可 以 将 两 次 Annoy 搜索 的 结果 与 gensim 
的 正确 答案 进行 比较 ， 如 代码 清单 13-10 所 示 。 
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代码 清单 13-10 ”排名 前 10 的 搜索 结果 精确 率 


我 们 把 如 何 将 这 些 排名 前 10 的 列表 合并 到 
一 个 DataFrame 中 的 操作 留 给 读者 解决 
>>> pd.DataFrame(annoy_topl0, columns=['annoy_15trees', 














oad "annoy _30trees']) < 
gensim annoy_l5trees annoy_30trees 
JK_ Rowling Harry_ Potter Harry_Potter Harry_Potter 
JK_Rowling Narnia JK_Rowling 
boy_wizard Sherlock_Holmes Deathly Hallows 
Deathly Hallows Lemony_Snicket Half Blood_Prince 
Half Blood Prince Spiderwick _ Chronicles Twilight 
Rowling Unfortunate_Events Twilight_saga 
Actor_Rupert_Grint Prince Caspian Narnia 
HARRY Potter Eragon Potter_mania 
wizard_Harry Potter Sorcerer_Apprentice Hermione_Granger 
HARRY_POTTER RL_Stine Da_Vinci_Code 


要 去 除 宛 余 的 “Harry_ Potter” 这 个 同义词 ， 我 们 应 该 列 出 前 11 名 ， 并 跳 过 第 一 名 。 不 过 我 
们 仍 可 以 看 出 这 里 的 改进 。 当 我 们 增加 Annoy 索引 树 的 数量 时 ,会 降低 不 太 相 关 的 词 项 (如 
“Narnia”) 的 排名 ,并 插入 更 多 相关 的 真正 的 最 近邻 词 项 ( 如 “JK_Rowling” 和 “Deathly_Hallows”)。 

此 外 ，Annoy 索引 得 到 近似 答案 明显 快 于 提供 精确 结果 的 gensim 索引 。 并 且 可 以 将 此 
Annoy 索引 用 于 需要 搜索 的 任何 高 维 、 连续、 稠密 的 向 量 , 例如 LSA 文档 -主题 向 量 或 doc2vec 
SOPHIA. (Æ )。 


13.2.4 ”究竟 为 什么 要 使 用 近似 索引 


那些 有 算法 效率 分 析 经 验 的 人 可 能 会 对 自己 说 O(n ) 算 法 在 理论 上 是 有 效 的 。 毕 竟 ， 它 们 比 
上 数 算法 更 有 效 ， 甚 至 比 多 项 式 算法 更 有 效 。 当 然 ， 它 们 更 不 是 求解 NP 困难 问题 ， 它 们 不 是 那 
种 需要 花费 宇宙 一 生 的 时 间 来 计算 的 不 可 能 的 东西 。 

因为 这 些 O(n?) ARETE NLP 流水 线 中 的 机 器 学 习 模 型 训练 阶段 ， 所 以 它们 可 以 预先 
计算 。 聊 天 机 器 人 不 需要 在 每 次 回复 新 语句 时 都 执行 O(n”) 操 作 。n? 操作 本 质 上 是 可 并 行 化 的 。 
大 家 几乎 总 是 可 以 独立 于 其 他 n 个 序列 来 运行 n 个 计算 序列 中 的 一 个 。 所 以 大 家 可 以 在 这 个 问 
题 上 投入 更 多 的 内 存 和 处 理 器 , 在 每 晚 或 每 个 周末 运行 一 些 批 处 理 训练 过 程 ， 以 保持 机 器 人 的 
大 脑 与 时 俱 进 。 更 好 的 是 ， 大 家 可 以 分 块 进行 好 计算 并 逐个 运行 ， 随 着 数据 的 增加 ，7 也 会 
增加 。 

例如 , 假设 我 们 一 开始 就 已 经 在 一 些小 型 数据 集 上 训练 了 一 个 聊天 机 器 人 , 然后 对 外 界 开放 
使 用 。 想 象 一 下 , n 是 其 持久 性 存储 ( 数据库 ) 中 语句 (statement ) 和 回复 (response ) 的 数量 。 
每 当 有 人 使 用 新 语句 对 聊天 机 器 人 说 话 时 , 机 器 人 可 能 要 在 其 数据 库 中 搜索 最 相似 的 语句 ,以 便 





















































@ 这 是 大 家 在 复杂 度 为 zr 文档 匹配 问题 上 真实 使 用 的 架构 。 
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可 以 复 用 之 前 适用 该 语句 的 任何 回复 。 因 此 , 计算 n 个 已 有 语句 和 新 语句 之 间 的 某 种 相似 性 得 分 
(EEE), 并 将 新 的 相似 性 得 分 作为 新 的 行 和 列 存储 在 大 家 的 (n+1) 相似 度 矩 阵 中 。 或 者 只 需 在 图 
数据 结构 中 再 添加 n 条 连接 或 关系 ,来 存储 语句 之 间 的 所 有 相似 性 得 分 。 现 在 , 我 们 可 以 对 这 些 
连接 〈 或 连接 矩阵 中 的 单元 格 ) 进行 查询 ， 以 找到 最 小 距离 值 。 对 于 最 简单 的 方法 ， 只 需要 检查 
刚刚 计算 的 n 个 得 分 。 但 是 如 果 想 要 更 加 周全 ,可 以 查看 其 他 行 和 列 ( 更 深入 地 遍历 图 )， 例 如 ， 
找到 对 针对 相似 语句 的 一 些 回复 ， 并 检查 其 友好 程度 、 信 息 内 容 、 情 感 、 符 合 语法 性 、 结 构 完 整 
性 、 简 洁 性 和 风格 。 无 论 哪 种 方式 ,大 家 都 有 一 个 用 于 计算 最 佳 回复 的 O(n) 算 法 ,即使 对 完整 的 
训练 其 总 的 复杂 度 为 On’) 

但 是 如 果 O(n) 还 不 够 快 呢 ?” 如 果 大 家 正在 构建 一 个 非常 大 的 大 脑 ， 例 如 谷歌 ,其 n 超过 60 
万 亿 ? 即 使 大 家 的 n 不 是 那么 大 ， 如 果 个 别 计算 相当 复杂 , 或 者 想 在 合理 的 时 间 ( 数 十 毫秒 ) 内 
回复 ， 那 么 也 需要 使 用 一 个 索引 。 
























































13.2.5 ”索引 变通 方法 : 离散 化 


所 以 我 们 前 面 说 到 浮 点 数 (实数 值 ) 不 可 能 直接 索引 。 有 什么 方法 可 以 解决 我 们 的 问题 , 或 
者 说 不 用 直接 索引 ? 那些 有 传感器 数据 和 模 数 转换 器 处 理 经 验 的 人 可 能 会 想到 , 连续 的 数值 可 以 
很 容易 地 数字 化 或 离散 化 。 而 且 浮 点 数 并 不 是 真正 连续 的 。 毕 竟 ,， 它们 是 一 串 二 进 制 数 。 但 是 如 
果 和 希望 它们 适用 大 家 的 索引 概念 并 保持 低 维 度 ， 就 需要 将 它们 真正 离散 化 。 需 要 将 它们 “封装 ” 
成 可 控 的 东西 。 将 连续 变量 转换 为 可 控 数量 的 分 类 值 或 序数 值 的 最 简单 方法 就 像 代码 清单 13-11 
中 展示 的 代码 。 

















代码 清单 13-11 针对 低 维 向 量 的 MinMaxScaler 





>>> from sklearn.preprocessing import MinMaxScaler 





>>> real_values = [-1.2, 3.4, 5.6, -7.8, 9.0] oat Paras 
>>> 将 我 们 的 浮 点 数 限 制 在 
>>> scaler = MinMaxScaler () 0.0 到 1.0 之 间 


>>> scaler.fit(real_values) 


[int (x * 100.) for x in scaler.transform(real_values) ] <-— 


to eer 按照 比例 ,离散 化 到 


0 到 100 之 间 

该 方法 适用 于 低 维 空间 。 这 基本 上 是 一 些 二 维 GIS 索引 用 来 将 经 度 / 纬 度 值 离散 化 为 边界 框 
网 格 中 的 内 容 。 对 于 每 个 网 格 点 ,二 维 空间 中 的 点 存在 也 可 能 不 存在 。 随 着 维度 的 增长 , 需要 使 
用 比 简单 二 维 网 格 更 复杂 、 更 高 效 的 索引 。 

在 深入 研究 300 维 自然 语 言语 义 向 量 之 前 , 我 们 通过 空间 维度 来 思考 三 维 空间 。 例如 , 通过 
将 高 度 添加 到 某 个 包含 纬度 和 经 度 的 二 维 GPS 数据 库 , 想象 一 下 从 二 维 增长 到 三 维 引 起 的 变化 。 
现在 假设 我 们 将 地 球 划分 为 三 维 立方 体 而 不 是 原先 使 用 的 二 维 网 格 。 大 部 分 立方 体 中 没有 太 多 我 
们 有 兴趣 查找 的 东西 , 而 且 进行 邻近 搜索 ( 例如 , 查找 某 个 三 维 球体 或 三 维 立 方 体内 的 所 有 对 象 ) 
变 得 更 加 困难 。 我 们 需要 搜索 的 网 格 点 数量 以 产 的 数量 级 增长 ， 其 中 n 是 搜索 区 域 的 直径 。 可 
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以 看 到 ， 当 维度 从 3 增长 到 4 或 5 时 ， 大 家 真 的 需要 对 搜索 方法 深入 了 解 。 
13.3 常数 级 内 存 算法 


处 理 大 型 语料库 和 TF-IDF 矩阵 的 主要 挑战 之 一 是 将 其 全 部 存放 在 内 存 中 。 我 们 在 本 书 中 使 
用 gensim 的 原因 是 它们 的 算法 尝试 保持 常数 级 的 内 存 占 用 。 



































13.3.1 gensim 


如 果 文 档 数量 超出 内 存 所 能 容纳 的 容量 怎么 办 ? 随 着 语料库 中 文档 的 大 小 和 种 类 的 增长 ， 即 
使 是 从 云 服务 中 租用 最 大 的 机 器 ,最终 也 可 能 会 超出 内 存 容量 。 但 是 无 须 担 心 ， 数 学 家 就 在 这 里 。 

像 LSA 这 样 的 算法 ， 其 背后 的 数学 原理 已 经 发 展 了 几 十 年 。 数 学 家 和 计算 机 科学 家 有 很 多 
时 间 去 研究 并 让 它 在 外 存 中 运行 ， 这 意味 着 运行 算法 所 需 的 对 象 并 不 都 需要 一 次 存放 在 核心 存储 
器 (内存 ) 中 。 这 就 意味 着 可 以 不 再 受到 机 器 上 内 存 的 限制 。 

即使 不 需要 在 多 台 机 器 上 并 行 运行 大 家 的 训练 流水 线 , 大 型 数据 集 也 需要 常数 级 内 存 算法 的 
支持 。gensim 的 LsiModel 是 LSA 奇异 值 分 解 算法 的 一 种 外 存 实 现 。” 

即使 对 于 较 小 的 数据 集 ，gensimLSIModel 的 优势 也 在 于 它 不 需要 增加 内 存 用 量 来 处 理 不 
断 增 长 的 词汇 表 或 文档 集 。 因 此 , 不 必 担 心 它 会 在 语料库 处 理 过 程 中 被 交换 到 磁盘 分 区 ,或 者 在 
内 存 耗 尽 时 停止 运行 。 我 们 甚至 可 以 同时 使 用 笔记 本 电脑 处 理 其 他 任务 , 而 gensim 模型 则 在 后 
台 进 行 训练 。 

gensim 使 用 所 谓 的 批 训练 来 实现 这 种 内 存 效率 。 它 在 文档 上 逐 批 训 练 LSA 模型 (gensim. 
models.LsiModel ) 并 增 量 合 并 逐 批 训练 的 结果 。 所 有 gensim 的 模型 都 设计 为 常数 级 内 存 ， 
这 使 它们 避免 将 数据 交换 到 磁盘 分 区 ， 并 有 效 地 使 用 宝贵 的 CPU 缓存 ， 从 而 可 以 在 大 型 数据 集 
上 运行 得 更 快 。 

提示 除了 常数 级 内 存 开销 ，gensim 模型 的 训练 是 可 并 行 化 的 ， 至 少 对 这 些 流 水 线 中 的 许多 长 时 

间 运 行 的 阶段 而 言 可 以 并 行 化 。 

所 以 像 gensim 这 样 的 软件 包 值得 出 现在 大 家 的 工具 箱 中 。 它 们 可 以 加 速 大 家 在 小 数据 上 的 
实验 ( 如 本 书 中 的 实验 )， 并 为 将 来 在 大 数据 上 的 多 维 空间 处 理 提供 支持 。 























































































































13.3.2 图 计算 





Hadoop, TensorFlow, Caffe, Theano, Torch 和 Spark 一 开始 就 设计 为 常数 级 内 存 。 如 果 可 
以 将 机 器 学 习 流 水 线 表示 为 一 个 Map-Reduce 问题 或 一 张 通用 计算 图 ， 则 可 以 利用 这 些 框 架 来 避 





D 详 见 标题 为 “gensim:models.lsimodel - Latent Semantic Indexing” 的 网 页 。 
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免 内 存 不 足 的 问题 。 这 些 框架 会 自动 遍历 计算 图 来 分 配 资 源 并 优化 吞 叶 量 。 

Peter Goldsborough 使 用 这 些 框架 实现 了 知 干 基准 模型 和 数据 集 来 对 比 它们 的 性 能 。 尽 
Torch 早 在 2002 年 就 出 现 了 ， 但 它 在 大 多 数 基 准 测试 中 表现 都 不 错 ， 在 CPU 上 的 表现 优 于 其 他 
所 有 框架 ， 有 时 黄 至 在 GPU 上 也 是 如 此 。 在 很 多 情况 下 ， 它 比 最 接近 的 竞争 对 手 快 10 倍 。 

Torch (及 其 PyTorch Python API) 已 集成 到 许多 集群 计算 框架 中 ， 如 RocketML。 虽 然 我 们 
没有 使 用 PyTorch 作为 本 书 中 的 示例 (为 了 避免 给 大 家 提供 过 多 的 选择 )， 但 是 如 果 内 存 或 生 吐 
HOE NLP 流水 线 的 瓶颈 ， 那 么 大 家 可 能 需要 了 解 它 。 

我 们 使 用 RocketML 成 功 实现 了 NLP 流水 线 的 并 行 化 。 他 们 付出 了 研究 和 开发 的 时 间 来 帮 
助 Aira 和 TotalGood 公司 实现 我 们 的 NLP 流水 线 的 并 行 化 ， 以 帮助 那些 视 障 人 士 : 

m 从 视频 中 提取 图 像 ; 

m ”对 预 训练 的 Caffe 、PyTorch 、Theano 和 TensorFlow (Keras ) PEA VEF THERE FIKA ; 

E 对 GB 级 别 语料库 的 大 型 TF-IDF 矩阵 进行 奇异 值 分 解 (SVD ) ”. 

RocketML 流水 线 可 以 很 好 地 进行 扩展 ， 这 种 扩展 一 般 是 线性 的 ， 具 体 取决 于 算法 。 因此， 
如 果 大 家 将 集群 中 的 计算 机 加 倍 , 那么 模型 训练 的 速度 能 够 提升 两 倍 。 但 实际 情况 比 看 起 来 的 困 
难 。 更 通用 的 计算 图 并 行 框架 (如 PySpark 和 TensorFlow ) 很 少 声 称 这 一 点 。 
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13.4 并行 化 MLP 计算 


NLP 的 高 性 能 计算 有 两 种 流行 的 方法 ， 一 种 是 将 GPU 添加 到 服务 器 〈 在 某 些 情况 下 甚至 是 
笔记 本 电脑 ) 中 ， 男 一 种 是 将 多 个 服务 右 的 CPU 连接 到 一 起 。 





13.4.1 在 GPU 上 训练 NLP 模型 


GPU 已 成 为 开发 实际 NLP 应 用 程序 的 重要 日 有 时 是 必需 的 工具 。GPU 于 2007 年 首次 推出 ,被 
设计 用 于 并 行 化 大 量 计 算 任 务 和 访问 大 量 内 存 。 这 与 CPU 的 设计 形成 了 鲜明 对 比 ，CPU 是 每 台 计算 
机 的 核心 。 它 们 旨 在 高 速 顺序 处 理 任 务 ， 并 且 可 以 高 速 访 问 有 限 的 处 理 内 存 (如 图 13-1 所 示 )。 

事实 证 明 ， 训 练 深度 学 习 模 型 涉及 多 种 可 以 并 行 化 的 操作 ， 例 如 和 矩阵 的 乘法 。 类 似 于 GPU 
最 初 目标 市 场 的 图 形 动 画 处 理 ， 深 度 学 习 模 型 的 训练 通过 和 矩阵 乘法 并 行 化 大 大 加 速 。 

图 13-2 展示 了 输入 向 量 与 权重 矩阵 的 乘法 ， 这 是 在 神经 网 络 训练 的 前 向 传播 过 程 中 频繁 出 
现 的 操作 。 与 CPU 相 比 ，GPU 的 每 个 核 的 处 理 速度 较 慢 ,但 每 个 核 都 可 以 计算 结果 向 量 中 的 一 
个 分 量 。 如 果 在 CPU 上 执行 训练 ， 在 没有 使 用 特定 线性 代数 库 的 情况 下 ， 每 行 乘法 将 按 顺序 执 
行 。 它 需要 nS (EEIT) 时 刻 才 能 完成 乘法 。 如 果 在 GPU 上 执行 相同 的 任务 ， 则 乘法 将 被 











































































































@ 在 2008 年 SAIS 会 议 上 ，Santi Adavani 解释 了 针对 SVD 的 优化 ， 可 以 使 其 在 RocketML 的 高 性 能 计算 
平台 上 运行 更 快 、 可 扩展 性 更 好 。 
@) Santi Adavani 和 Vinay Rao 贡献 了 Real-Time Video Description 项 目 。 
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并 行 化 ， 并 且 每 行 乘法 可 以 在 GPU 的 各 个 核 中 同时 执行 。 










































































CPU GPU 
图 13-1 CPU 和 GPU 的 对 比 
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图 13-2 ”和 矩阵 乘法 ， 其 中 每 一 行 乘法 可 以 在 GPU 上 并 行 执行 








是 否 需要 在 GPU 上 运行 训练 好 的 模型 ? 即使 使 用 GPU 训练 模型 ， 也 不 需要 在 生产 环境 中 使 用 
GPU 进行 模型 推理 。 实 际 上 ， 除 非 需要 在 预 训练 模型 上 前 向 传播 (神经 网 络 的 推理 或 激活 ) 数 百 万 
个 样本 或 有 高 吞吐 量 (实时 流 ) 的 需求 ， 否 则 可 能 只 应 该 在 训练 新 的 模型 时 使 用 GPU。 在 神经 网 络 
上 反 向 传播 相 比 前 向 激活 〈 推 理 ) 在 计算 成 本 上 要 高 郧 得 多 。 
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GPU 会 给 流水 线 增 加 复杂 性 和 成 本 。 但 是 ， 如 果 可 以 在 模型 缩短 和 欠 代 周期 ， 那 么 这 种 前 期 
成 本 可 以 很 快 收回 。 如 果 可 以 在 十 分 之 一 的 时 间 内 使 用 新 的 超 参数 重新 训练 模型 ， 则 可 以 尝试 





10 倍数 量 的 不 同方 法 来 取得 更 高 的 精确 率 。 





训练 完成 后 ，Keras 或 其 他 深度 学 习 框 架 提 供 了 导出 模型 权重 和 结构 的 方法 。 然 后 ， 大 家 就 

















可 以 在 几乎 任何 硬件 上 加 载 权 重 和 模型 设置 ， 来 计算 前 向 传递 或 推理 传递 ) 模型 预测 的 结 
即使 在 智能 手机 "或 浏览 器 "中 也 是 如 此 。 


13.4.2 租 与 买 








使 用 GPU 可 以 加 速 我 们 的 模型 开发 ， 并 允许 我 们 更 快 地 迭代 模型 开发 。GPU 很 有 用 ,但 是 


我 们 应 该 购买 吗 ? 








D 详 见 苹 果 公 司 的 Core ML 文档 或 者 谷歌 公司 的 TensorFlow Lite 文档 。 
@) 详 见 标题 为 “Keras.js - Run Keras models in the browser” 的 网 页 。 
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— 





大 多 数 情 况 下 答案 是 否定 的 。GPU 的 性 能 正在 迅速 提高 ， 购 买 的 显卡 可 能 很 快 就 会 过 时 。 除 非 大 
家 计划 全 天 候 使 用 GPU ,否则 通过 Amazon Web Services 或 Google Cloud 等 服务 租用 GPU 可 能 会 更 好 。 
GPU 服务 允许 在 模型 训练 运行 期 间 切换 实例 数量 。 这 样 ， 我 们 就 可 以 根据 需要 扩展 或 压缩 GPU 数量 。 
这 些 服务 商 还 经 常 提供 已 经 完全 配置 好 的 安装 实例 , 这 可 以 节省 我 们 的 时 间 ， 让 我 们 专注 于 模型 开发 。 

我 们 搭建 并 维护 了 自己 的 GPU 服务 器 ， 用 于 加 速 本 书 中 用 到 的 一 些 模型 训练 ， 但 大 家 应 该 
像 我 们 说 的 那样 去 租用 服务 器 ， 而 不 要 像 我 们 所 做 的 一 样 购买 GPU。 选 择 相互 兼容 的 组 件 并 最 
大 限度 地 减 小 数据 吞吐 量 瓶 颈 是 一 项 挑战 。 我 们 借鉴 了 其 他 人 介绍 的 成 功 架 构 , 并 在 最 近 比 特 币 
激增 导致 高 性 能 计算 (HPC) 组 件 价 格 飙 升 之 前 购买 了 内 存 和 GPU。 保 持 所 有 开发 库 处 于 最 新 
状态 并 协调 本 书 作者 之 间 的 使 用 和 配置 是 一 项 挑战 。 它 既 有 趣 又 有 教育 意义 , 但 它 并 不 能 有 效 利 
用 我 们 的 时 间 和 人 金钱。 

租用 GPU 实例 的 灵活 性 也 有 一 个 缺点 : 大 家 需要 密切 关注 成 本 。 完 成 训练 并 不 会 自动 停止 
实例 。 为 了 停止 计 费 器 (产生 持续 成 本 ), 需要 在 每 次 训练 运行 的 间隙 关闭 GPU 实例 。 更 多 详细 
信息 ， 参 见 E.1.1 节 。 






































13.4.3 GPU 租赁 选择 


多 家 公司 都 提供 GPU 租赁 选择 , 从 众所周知 的 平台 即 服务 公司 开始 , 如 微软 、AWS( Amazon 
Web Services ) 和 谷歌 。 其 他 初创 公司 ， 如 Paperspace 或 FloydHub ， 正 在 通过 推出 有 趣 的 产品 进 
人 该 行业 ， 这 些 产 品 可 以 帮助 大 家 快速 启动 深度 学 习 项 目 。 

表 13-1 比较 了 “平台 即 服务 ”( PaaS ) 提供 商 的 不 同 GPU 选择 。 服 务 范围 从 具有 最 小 配置 的 裸 
GPU 机 需 到 具有 拖 放 客户 端的 完全 配置 好 的 机 器 。 由 于 服务 定价 的 区 域 性 差异 ， 我 们 无 法 根据 价格 比 
较 提 供 商 。 服 务 价格 从 每 小 时 每 实例 0.65 美元 到 几 美 元 不 等 , 具体 取决 于 服务 器 的 位 置 、 配 置 和 设置 。 


表 13-1 GPU 平台 即 服务 的 选择 对 比 













































































公司 选择 的 原因 GPU 选择 上 手 容易 程度 | 灵活 性 
AS 多 种 GPU 选择 , 实时 收费 , 可 在 | NVIDIA GRID K520, Tesla a ote 
世界 各 地 的 多 个 数据 中 心 使 用 | M60, Tesla K80, Tesla V100 ie 
集成 Google Cloud Kubernetes. | NVIDIA Tesla K80, Tesla ab 
Google Cloud j 中 高 
DialogFlow, Jupyter P100 
i 如 上 | A 的 其 他 er 
Microsoft 4 有 果 六 家 使 4 zure 的 其 他 服 NVIDIA Tesla K80 中 a 
Azure 务 ， 这 是 个 好 选择 
Be NVIDIA Tesla K80, Tesl 
FloydHub 支持 命令 行 接口 打包 代码 W100 Rs | 中 
Paperspace 虚拟 服务 器 和 托管 的 Eon nee eee L 易 中 
persp: Jupyter 笔记 本 ， 支 持 GPU ae ~ Tesla ~ Tesla 























E AWS 上 设置 我 们 自己 的 GPU 附录 巨 中 展示 了 开始 使 用 自己 的 GPU 实例 前 的 必要 步骤 的 总 结 。 
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13.4.4 张 量 处 理 单元 TPU 


大 家 可 能 听 说 过 张 量 处 理 单元 (TPU )， 这 是 一 个 高 度 优化 的 深度 学 习 计算 单元 。 它 们 在 计算 
TensorFlow 模型 的 反 向 传播 时 特别 高 效 。TPU 针对 任意 维 数 的 张 量 乘法 进行 了 优化 , 并 使 用 专用 
的 FPGA 和 ASIC 芯片 对 数据 进行 预 处 理 和 传输 。GPU 针对 图 形 处 理 进 行 了 优化 ， 图 形 处 理 主要 
集中 在 三 维 游戏 世界 中 泻 染 和 移动 所 需 的 二 维和 矩阵 乘 法 。 

谷歌 公司 声称 TPU 在 计算 深度 学 习 模 型 方面 的 效率 是 同等 GPU 的 10 倍 。 在 撰写 本 书 时 ， 
谷歌 刚刚 将 在 2015 年 设计 并 发 明 的 TPU 对 外 发 布 ， 目 前 处 于 开放 测试 阶段 (未 提供 服务 级 别 协 
W) 同时 , 研究 人 员 可 以 申请 成 为 TensorFlow Research Cloud 的 一 员 ， 从 而 在 TPU 上 训练 他 们 
的 模型 。 





























13.5 减少 模型 训练 期 间 的 内 存 占用 


当 在 GPU 上 基于 大 型 语料库 训练 NLP 模型 时 , 最 终 可 能 会 在 训练 期 间 遇 到 MemoryError 错 
误 消息 ， 如 代码 清单 13-12 所 示 。 


代码 清单 13-12 如 果 训练 数据 超过 了 GPU 的 内 存 ， 就 会 出 现 错误 消息 





Epoch 1/10 
Exception in thread Thread-27: 
Traceback (most recent call last): 
File "/usr/lib/python2.7/threading.py", line 801, in __bootstrap_inner 
self.run() 
File "/usr/lib/python2.7/threading.py", line 754, in run 
self. target(*self. args, **self. kwargs) 
File "/usr/local/lib/python2.7/dist-packages/keras/engine/training.py", 
line 606, in data_generator_task 
generator_output = next (self. generator) 
File "/home/ubuntu/django/project/model/load_data.py", line 54, 
in load_training_set 
rv = np.array (rv) 








MemoryError 


为 了 实现 GPU 的 高 性 能 ， 除 CPU 内 存 之 外 ， 这 些 计算 单元 还 使 用 自己 内 部 的 GPU 内 存 。 
GPU 卡 的 内 存 大 小 通常 限制 在 几 千 兆 字 节 ， 在 大 多 数 情 况 下 ， 没 有 CPU 能 访问 的 内 存 那么 大 。 
当 在 CPU 上 训练 模型 时 ， 训 练 数据 可 能 会 加 载 到 计算 机 内 存 的 一 个 大 型 表 或 张 量 序列 中 。 然 而 
由 于 GPU 内 存 的 限制 ， 上 述 做 法 在 GPU 上 是 不 可 行 的 ( 如 图 13-3 所 示 )。 

一 个 有 效 的 解决 方法 是 使 用 Python 的 生成 器 概念 一 一 一 个 返回 迭代 器 对 象 的 函数 。 我 们 可 
以 将 迭代 器 对 象 传递 给 模型 训练 方法 ,并 在 每 次 训练 迭代 时 “取出 ”一 个 或 多 个 训练 条 目 ， 这样 
它 永 远 不 需要 在 内 存 中 存放 整个 训练 集 。 这 种 减少 内 存 占 用 的 有 效 方法 有 一 些 需 要 说 明 的 地 方 : 














D 详 见 标 题 为 “TensorFlow Research Cloud” 的 网 页 。 
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国生 成 器 一 次 只 提供 一 个 序列 元 素 ， 因 此 在 到 达 序列 末尾 之 前 ， 大 家 并 不 知道 它 包含 多 少 个 
元 素 ; 
国生 成 器 只 能 运行 一 次 。 它 们 是 一 次 性 的 ， 不 可 回收 利用 。 
由 于 上 述 这 两 个 难点 ， 利 用 数据 进行 多 次 训练 会 更 加 烦琐 。 但 是 Keras 正在 采取 一 些 方法 来 
处 理 所 有 这 些 烦 琐 的 “ 记 账 ”工作 (如 图 13-4 所 示 )。 


训练 数据 存储 模型 训练 训练 数据 存储 生成 器 函数 模型 训练 
— 大 量 的 内 存 需 求 一 一 > 少量 的 内 存 需求 


图 13-3 不 使 用 生成 器 函数 图 13-4 ”使 用 生成 器 函数 加 载 训练 数据 
加 载 训练 数据 


生成 器 函数 处 理 训练 数据 存储 的 加 载 并 将 训练 "数据 块 " 返回 给 训练 方法 。 在 代码 清单 13-13 
中 ,训练 数据 存储 是 一 个 csv 文件 ， 其 输入 数据 和 预期 输出 数据 之 间 由 “|” 分 隔 符 分 开 。 数 据 块 
限制 为 批 处 理 大 小 , 并 且 每 次 只 需 在 内 存 中 存储 一 个 批 处 理 集合 。 这样, 可 以 大 大 减少 模型 训练 
集 的 内 存 占用 。 




















代码 清单 13-13 ”用 于 改进 内 存 效率 的 生成 器 





































































































>>> import numpy as np 在 函数 设置 中 ， 可 以 
>>> 动态 设置 批 处 理 大 小 这 个 无 限 循环 持续 提供 训练 
>>> def training set_generator(data_store, 批 次 。 当 一 个 训练 周期 结 习 
四 四 batch_size=32): it, Keras 不 再 请 求 更 多 的 训 
X, Y= r 乡 
while True: APEA 
with open(data_store) as f: rey 、 、 
ai for i, line in enumerate (f): 这 将 打 训练 数据 存储 并 
— >... if i % batch size == 0 and X and Y: 创建 文件 句柄 f 
yield np.array(X), np.array(Y) 
X, Y= (1, [] 对 训练 数据 存储 的 内 容 进 行 逐 
x, y = line.split('|') <— 行 遍历 ， 直 到 将 全 部 数据 都 用 
X.append (x) 于 训练 样本 ， 然 后 再 从 训练 集 
sat Y.append (y) 的 起 始 处 开始 
>>> 
>>> data_store = '/path/to/your/data.csv' 
>>> training_set = training_set_generator (data store) 如 果 没 有 得 到 足够 多 的 训练 样本 ,就 继 
如 果 你 已 经 收集 了 足够 多 的 训练 数据 样本 ， 则 通过 yield 续 读 取 更 多 行 , 基于 分 阳 符 “|” 进 行 拆 
函数 返回 训练 数据 和 预期 的 训练 输出 。 在 将 数据 提供 给 分 ， 并 将 结果 分 别 保存 在 列表 X 和 YY 中 


























模型 的 fit THA, Python 会 在 yield 语句 之 后 返回 





EFM AHP, training set generator 函数 读 和 人 以 “|” 分 隔 值 的 文件 ， 不 过 它 可 
以 从 任何 数据 库 或 任何 其 他 数据 存储 系统 加 载 数据 。 
生成 器 的 一 个 缺点 是 , 它 不 返回 关于 训练 数据 阵列 大 小 的 任何 信息 。 因 为 不 知道 有 多 少 训练 
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数据 可 用 ， 所 以 必须 使 用 Keras BOI AN AA fit, predict H evaluate 方法 。 
我 们 不 再 使 用 下 面 的 方法 训练 模型 ; 


>>> model.fit(x=X, 


y=Y, 
batch_size=32, 
epochs=10, 


verbose=1, 
validation_split=0.2) 


而 使 用 下 面 的 方法 开始 训练 模型 : 


fit_generator 期 望 传 给 它 的 是 一 个 生成 器 ， 它 可 以 是 你 的 
训练 集 生成 器 ， 也 可 以 是 你 编写 的 任何 其 他 生成 器 


























>>> data_store = '/path/to/your/data.csv' 
>>> model.fit_generator (generator=training_set_generator(data_store, 
batch_size=32), < 
steps_per_epoch=100, < 
cee Me ete 
verbose=1, 、 yet St 
训练 周期 的 数量 
Validation data=[X val，Y val]) AU 


与 在 原始 fit 方法 中 定义 batch size Ale), fit_generator 
需要 每 个 训练 周期 的 步骤 数 steps_per_epoch。 每 一 步 都 













































因为 fit_generator 无 法 获得 完整 的 训练 数据 ， 调用 生成 器 。 将 steps_per_epoch 设置 为 训练 样本 数量 除 
所 以 它 不 允许 使 用 常见 的 validation_split 方 以 batoh size, 这 样 你 的 模型 将 在 每 个 训练 周期 中 使 用 
法 ， 而 需要 你 定义 validation_data 方法 次 完整 的 训练 集 





如 果 使 用 生成 器 ， 可 能 还 需要 更 新 模型 的 evaluate 


>>> model.evaluate_generator (generator=your_eval_generator (eval_data, 
batch_size=32), steps=10) 


All predict 方法 
>>> model.predict_generator (generator=your_predict_generator (\ 
prediction_data, batch_size=32), steps=10) 
警告 生成 器 在 内 存 中 和 运行 很 高 效 ， 但 它们 也 可 能 成 为 模型 训练 期 间 的 瓶颈 并 减 慢 训练 迭代 速度 。 
在 开发 训练 函数 时 注意 生成 器 的 运行 速度 。 如 果 即 时 处 理 数 据 减 慢 了 生成 器 的 运行 速度 ,那么 对 训 
练 数据 进行 预 处 理 或 者 租用 具有 更 大 内 存 配 置 的 实例 ,或 者 同时 采用 这 两 种 方法 , 都 可 能 带 来 帮助 。 


13.6 使 用 TensorBoard 了 解 模型 


在 训练 模型 时 深入 了 解 模型 性 能 , 并 将 其 与 之 前 的 训练 进行 比较 , 这 不 是 很 好 吗 ? 或 者 快速 
绘制 词 内 人 来 检查 语义 相似 性 ? 谷歌 的 TensorBoard 就 提供 了 这 样 的 功能 。 

在 使 用 TensorFlow ( 或 使 用 Keras 和 TF 后 端 ) 训练 模型 时 , 可 以 使 用 TensorBoard 深入 了 解 
我 们 的 NLP 模型 。 我 们 可 以 使 用 它 来 跟踪 模型 训练 指标 ， 绘 制 网 络 权 重 分 布 ， 可 视 化 词 能 人 以 
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及 完成 其 他 任务 。TensorBoard 易于 使 用 ， 它 通过 浏览 器 连接 到 训练 实例 。 
如 果 想 与 Keras 一 起 使 用 TensorBoard， 那 么 需要 像 任 何其 他 Python 包 一 样 安装 TensorBoard : 


pip install tensorboard 
安装 完成 后 ， 现 在 可 以 用 下 列 命令 启动 它 : 


tensorboard --logdir=/tmp/ 





在 TensorBoard 运行 后 ， 如 果 在 笔记 本 电脑 或 台式 PC 上 进行 训练 ， 那 么 请 在 浏览 器 中 通过 
localhost 的 6006 端口 (http:/127.0.0.1:6006 ) 访问 。 如 果 在 租用 的 GPU 实例 上 训练 模型 ， 请 
使 用 GPU 实例 的 公共 IP 地址， 并 确保 GPU 提供 商 允 许 通 过 端口 6006 进行 访问 。 

一 旦 登录 后 ， 就 可 以 探索 模型 性 能 。 








OO ay AY ALA ial RA 





TensorBoard 是 一 个 可 视 化 词 能 和 的 好 工具 。 特 别 是 当 训练 自己 的 、 基 于 特定 领域 的 词 认 入 
时 , 能 和 可视化 可 以 帮助 验证 语义 相似 性 。 将 词 模型 转换 为 TensorBoard 可 以 处 理 的 格式 很 简单 。 
将 词 向 量 和 向 量 标签 加 载 到 TensorBoard 后 ， 它 将 执行 降 维 到 二 维 或 三 维 的 操作 。TensorBoard 
目前 提供 3 种 降 维 方法 : PCA, t-SNE 和 自 定义 降 维 。 

代码 清单 13-14 展示 了 如 何 将 词 租 入 转换 为 TensorBoard 格式 并 生成 投影 数据 。 


代码 清单 13-14 ”将 词 赔 入 转换 为 TensorBoard 格式 并 生成 投影 数据 





>>> import os oe Ries 7 
5 BR. W 
>>> import tensorflow as tf create_projection 函数 有 3 个 参数 ; 嵌入 数据 、 


>>> import numpy as np 影 的 名 称 ， 以 及 存储 投影 文件 的 路 径 
>>> from io import open 
>>> from tensorflow.contrib.tensorboard.plugins import projector 


>>> def create_projection(projection_data, 





projection_name='tensorboard_viz', 
path='/tmp/'): < 
meta_file = "{}.tsv".format (projection_name) 
vector_dim = len(projection_data[0] [1] 
samples = len(projection_data) 
projection_matrix = np.zeros((samples, vector_dim) ) 





with open(os.path.join(path, meta_file), 'w') as file metadata: 


for i, row in enumerate (projection_data): 7 P P cr 
label, vector = row[0], row[1] ee ee 
projection matrix[i] = np.array (vector) 一 个 numpy 数组 ， 然 后 该 数组 将 


file metadata.write("{}\n". format (label) ) 被 转换 为 一 个 TensorFlow 变量 


at create projection 获取 元 组 列表 ( 预期 先是 向 量 ， 然 后 是 标签 
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sess tf.InteractiveSession () 





要 创建 TensorBoard 投 
影 ， 你 需要 创建 一 个 


TensorFlow 会 话 


embedding tf.Variable (projection matrix, 
trainable=False, 
name=projection name) 


tf.global variables initializer() .run() 








saver = tf.train.Saver() 
writer = tf.summary.FileWriter(path, sess.graph) 
P meee TensorFlow 提供 了 内 置 的 
config = projector.ProjectorConfig 法 来 包 A 
embed = config.embeddings.add() 方法 来 创建 投影 


embed.tensor_name 
embed.metadata_path 


'{}'. format (projection_name) 
os.path.join(path, meta_file) 




















rojector.visualize_embeddings (writer, confi t : ; : 
Pead = ue. , 9) visualize embeddings 方法 将 投 
saver.save(sess, os.path.join(path, '{}.ckpt'\ Bien j pa yh ak 
A a ‘| 
„Format (projeetion naneyy) 影 结 果 写 人 你 的 路 径 中 , 然后 就 
print ('Run `tensorboard --logdir={0}* to run\ 可 以 使 用 TensorBoard 了 


visualize result on tensorboard'.format (path) ) 





) 并 将 其 转换 为 


TensorBoard 投影 文件 。 一 旦 投影 文件 被 创建 并 可 供 TensorBoard 使 用 (在 上 例 中 ，TensorBoard 预期 的 


文件 在 tmp 目录 中 )， 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


前 往 浏览 器 中 的 TensorBoard SmI PA aa AB) EE ( 如 图 13-5 所 示 ): 


projection_name = "NLP _ in Action" 
projection_data = [ 
('car', [0.34, ep Qs 
('toy', [0.46, xg? OD 397) 


] 


create_projection(projection_data, 


projection_name) 








TensorBoard 





DISTRIBUTIONS: 


EMBEDDINGS 

















para E D E | Points:20000 | Dimension: 300 | Selected 52 points n e ee 
h 
© o 二 soccer E by 
label soccer neighbors © @- 一 一 一 51 
ag Nearest points in the original space: 
ni = 
Vota oses 
Es 
ict = 
ieee = 
~~ | nar dees a z 
we = 
‘Component #3 ~ eo 
Total variance described: 7.5%. BOOKMARKS (0) @ a 
用 吉 果 进行 可 视 化 
图 13-5 利用 TensorBoard 对 word2vec 的 能 入 结 行 可 视 
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137 小 结 


像 Annoy 这 样 的 局 部 敏感 哈 希 使 潜在 语义 索引 成 为 现实 。 

GPU 加 速 模型 训练 ， 缩 短 模型 的 迭代 周期 ,便于 更 快 地 构建 更 好 的 模型 。 

CPU 并 行 化 对 于 无 法 从 大 型 矩阵 的 加 速 乘法 中 受益 的 算法 有 意义 。 

可 以 使 用 Python 的 生成 器 绕 过 系统 内 存 瓶 颈 ， 为 GPU 和 CPU 实例 节省 资金 。 

谷歌 的 TensorBoard 可 以 帮 大 家 实现 可 视 化 和 提取 可 能 想不到 的 自然 语言 嵌入 。 

掌握 NLP 并 行 化 可 以 扩展 大 家 的 脑力 ， 提 供 一 个 由 机 器 集群 构成 的 心智 社会 来 帮 大 家 
思考 。” 

















Th 


本 








D 详 见 Peter Watts 关于 有 意识 的 蚂蚁 和 人 类 蜂 房 的 视频 。 








HOA DDUUD NLPUU 





如 果 大 家 已 经 安装 nlpia 包 (https://github.com/totalgood/nlpia )， 就 可 以 运行 本 书 中 的 所 有 
示例 。 我 们 会 保持 README 文件 中 的 安装 说 明 为 最 新 版 本 。 但 是 ， 如 果 你 已 经 安装 了 Python3 ， 而 
且 觉 得 自己 手气 不 错 (或 者 幸运 地 拥有 一 个 Linux 环境 ) 的 话 ， 那 么 可 以 尝试 执行 : 


$ git clone https://github.com/totalgood/nlpia 
$ pip3 install -e nlpia 


如 果 上 面 的 命令 不 起 作用 的 话 , 那么 可 能 需要 在 操作 系统 下 安装 一 个 软件 包 管理 器 和 一 些 二 
进 制 软件 包 。 我 们 将 用 3 节 分 别 介绍 不 同 操作 系统 下 的 一 些 具体 使 用 说 明 : 

E Ubuntu; 

E Mac; 

E Windows. 

在 这 几 节 中 会 展示 操作 系统 包 管理 器 的 安装 方法 。 一 旦 安装 了 软件 包 管理 器 (或 者 使 用 一 个 
像 Ubuntu 这 样 已 经 安装 包 管理 器 的 对 开发 人 员 友 好 的 操作 系统 )， 就 可 以 安装 Anaconda3。 


A1 Anaconda3 


Python 3 具有 很 多 高 性 能 和 表达 能 力 强 的 功能 ， 非 常 适合 NLP。 在 几乎 所 有 系统 上 安装 
Python 3 的 最 简单 方法 是 安装 Anaconda3。 这 样 做 的 另 一 个 好 处 是 提供 了 一 个 包 和 环境 管理 器 ， 
可 以 在 各 种 容易 出 问题 的 操作 系统 (如 Windows) 上 安装 很 多 容易 出 问题 的 包 (Ul matplotlib )。 

可 以 运行 代码 清单 A-1 的 代码 , 以 编程 方式 安装 最 新 版 本 的 Anaconda 及 其 conda 软件 包 管 
Hiro 

















代码 清单 A-1 安装 Anaconda3 





$ OS=MacOSX # or Linux or Windows 
$ BITS= 64 # or '' for 32-bit 
$ curl https://repo.anaconda.com/archive/ > tmp.html 
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$ FILENAME=$ (grep -o -E -e "Anaconda3-[.0-9]+-$0S- 
x86$BITS\. (sh|lexe)" tmp.html | head -n 1) 
$ curl "https://repo.anaconda.com/archive/$FILENAME" > install_anaconda 
$ chmod +x install_anaconda 
$ ./install_anaconda -b -p ~/Anaconda 
$ export PATH="$HOME/Anaconda/bin:$PATH" 
$ echo 'export PATH="$HOME/Anaconda/bin:$PATH"' >> ~/.bashrc 
$ echo 'export PATH="$HOME/Anaconda/bin:$PATH"' >> ~/.bash_profile 
$ source ~/.bash_profile 
$ rm install anaconda 





现在 就 可 以 创建 一 个 虚拟 环境 : 不 是 Python virtualenv， 而 是 一 个 更 完整 的 conda 环境 , € 
将 所 有 Python 的 二 进 制 依赖 项 与 操作 系统 Python 环境 隔离 开 来 。 然 后 ， 可 以 在 该 conda 环境 中 
使 用 代码 清单 A-2 安装 NLPIA 的 依赖 项 和 源 代码 。 





A2 安装 mlpia 


我 们 喜欢 在 用 户 目 录 $HOME 下 面 的 code/ 子 目录 下 安装 正在 开发 的 软件 源 代码 ,但 是 读者 
也 可 以 把 它 放 在 任何 自己 喜欢 的 地 方 。 如 果 代 码 清单 A-2 中 的 代码 不 起 作用 ， 请 查看 nlpia 的 
README 文件 ， 以 获取 更 新 的 安装 说 明 。 











代码 清单 A-2 ”使 用 conda 安装 nlpia 源码 





在 根 conda 环境 下 为 pip 安装 最 新 的 





















































$ mkdir -p ~/code : 

$ cd ~/code conda 二 进 制 文件 

$ git clone https://github.com/totalgood/nlpia 将 pip 更 新 为 最 新 的 pypi.python.org 版 

$ cd ~/code/nlpia 本 ， 这 里 终于 pip 安装 了 pip 

$ conda install -y pip < 一 

$ pip install --upgrade pip 

$ conda env create -n nlpiaenv -f conda/environment.yml 

$ source activate nlpiaenv sins i 

$ pip install --upgrade pip 激活 Python 环境 

$ pip install -e . <— 创建 一 个 conda 环境 ， 即 一 个 

"$HOME/Anaconda3/envs/nlpi 
为 nipia 创建 一 个 可 编辑 的 源码 目录 ,从 。 | 在 nlpiaenv 环境 下 安装 A S eer 
最 i AT YAM ZB AY aR 

而 无 沦 何 时 将 编辑 结果 存储 到 磁盘 ， 所 | 。 | 最 新 的 Pip 
有 的 源码 及 数据 变化 都 会 实时 在 线 





As ”集成 开发 环境 


现在 你 的 机 器 上 有 了 Python 3 和 NLPIA, 下 面 只 需要 一 个 优秀 的 文本 编辑 需 来 搭建 我 们 的 
集成 开发 环境 (IDE )。 我 们 不 安装 JetBrains 提供 的 像 PyCharm 这 样 的 完整 系统 ， 而 安装 适合 
小 规模 团队 开发 使 用 的 个 人 工具 ( 如 为 单 人 团队 所 用 的 Sublime Text )， 后 者 可 以 把 一 件 事 做 得 
很 好 。 
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提示 开发 者 为 开发 者 开发 工具 确实 存在 ,特别 是 当 开发 团队 是 一 个 人 的 团队 时 更 是 如 此 。 个 人 
发 者 通常 会 开发 出 比 公司 开发 者 更 好 的 工具 ， 因 为 个 人 更 愿意 吸纳 其 用 户 的 代码 和 建议 。 由 于 需要 
而 开发 一 个 工具 的 个 人 开发 者 一 般 是 开发 一 个 针对 其 工作 流 和 进行 优化 的 工具 。 如 果 他 们 开发 的 工具 
可 靠 、 功 能 强大 且 很 受 欢迎 ， 那 么 他 们 的 工作 流 会 非常 棒 。 从 另 一 个 角度 说 ， 像 Jupyter 这 样 的 大 
型 开源 项 目 也 很 棒 。 只 要 它们 没有 使 用 开源 项 目的 商业 许可 代码 分 支 ， 它 们 一 般 就 会 非常 通用 并 且 
功能 齐全 。 


SEA, Python IDE 所 需 的 工具 都 是 免费 的 、 可 扩展 的 ,并且 是 持续 维护 的 ， 大 多 数 甚至 是 开 
源 的 ， 所 以 你 可 以 把 它们 留 作 自用 。 

E Sublime Text 3: 带 Package Control 和 Anaconda 自动 纠 错 检查 的 文本 编辑 器 。 

E Meld; 适用 于 Mac 或 其 他 操作 系统 的 代码 合并 工具 。 

m ipython (Jupyter 控制 台 ): 用 于 阅读 一 评估 一 打印 一 循环 (开发 工作 流 )。 

E jupyter 记事 本 : 用 于 创建 报告 、 教 程 和 博客 文章 ， 或 用 于 与 老板 分 享 结果 。 


提示 “一 些 非 常 高 效 的 开发 人 员 使 用 Python 的 REPL 工作 流 。ipython、jupyter 控制 台 和 
jupyter 记事 本 等 REPL 控制 台 非 常 强大 ， 同 时 它们 还 有 help、?、?? 和 %% 等 神奇 的 命令 ， 另 外 它 
们 的 属性 、 方 法 、 参 数 、 文 件 路 径 其 至 是 dict 键 都 能 借助 tab 健 完成 自动 补 全 。 在 使 用 Google 或 
Stack Overflow 搜索 之 前 ,我 们 可 以 尝试 使 用 像 >>> sklearn.linear model.BayesianRidge?? 
这 样 的 命令 来 探索 所 导入 的 Python 包 对 应 的 代码 文档 和 源 代 码 。Python 的 REPL 甚至 允许 我 们 在 
手指 不 离开 键盘 的 情况 下 执行 shell 命令 (尝试 >>> !git pull Bk >>> !find . -name nlpia), 
这 样 可 以 最 大 限度 地 减少 上 下 文 切换 并 最 大 限度 地 提高 工作 效率 。 







































































AA Ubuntu 包 管 理 器 


Linux 发 行 版 已 经 安装 了 功能 齐全 的 包 管理 器 。 如 果 使 用 Anaconda 的 软件 包 管理 器 conda, 
那么 就 像 NLPIA 安装 说 明 中 所 建议 的 那样 ， 可 能 根本 用 不 着 系统 自 带 的 那个 包 管 理 器 。Ubuntu 
的 包 管 理 器 叫 作 apto 在 A.3 节 中 我 们 已 经 建议 安装 了 一 些 软件 包 。 几 乎 可 以 肯定 ， 你 并 不 需要 
所 有 的 这 些 软件 包 ， 但 我 们 还 是 提供 了 一 个 详尽 的 工具 代码 清单 ， 以 防 你 在 使 用 Anaconda 安装 
软件 时 提示 缺少 二 进 制 文 件 。 我 们 可 以 从 第 一 行 开始 向 下 执行 ,直到 conda 能 够 安装 Python 包 
为 止 。 具 体 参见 代码 清单 A-3。 














代码 清单 A-3 ”使 用 apt 安装 开发 工具 


$ sudo apt-get update 
$ sudo apt install -y build-essential libssl-dev g++ cmake swig git 
$ sudo apt install -y python2.7-dev python3.5-dev libopenblas-dev libatlasbase- 








D 这 里 说 的 就 是 “数字 游民 ”( Digital Nomad ) Steven Skoczen 和 “ 老 伙计 ”( The Dude ) Aleck Landgraf, 
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dev gfortran libgtk-3-dev 

sudo apt install -y openjdk-8-jdk python-dev python-numpy pythonpip 
python-virtualenv python-wheel python-nose 

sudo apt install -y python3-dev python3-wheel python3-numpy pythonscipy 
python-dev python-pip python3-six python3-pip 

sudo apt install -y python3-pyaudio python-pyaudio 

sudo apt install -y libcurl3-dev libcupti-dev xauth xll-apps python-qt4 

sudo apt install -y python-opencv-dev libxvidcore-dev libx264-dev libjpeg8- 
dev libtiff5-dev libjasper-dev libpng12-dev 


提示 wR apt-get update 命令 失败 并 出 现 关于 bazel 的 错误 , 那么 可 能 需要 添加 谷歌 的 apt 
仓库 以 及 用 于 TensorFlow 的 构建 工具 。 


wn uw U 


H UF 





A. Mac 
在 安装 与 其 他 开发 人 员 保持 一 致 所 需 的 所 有 工具 之 前 ， 需 要 一 个 真正 的 包 管理 器 (不 是 XCode )。 





A.5.1 一 个 Mac 包 管 理 器 


Homebrew 可 能 是 最 受 开 发 人 员 欢 迎 的 Mac 系统 命令 行 包 管理 器 。 它 易于 安装 ， 并 且 包 含 
开发 人 员 使 用 的 大 部 分 工具 的 一 键 安 装 包 。 它 相当 于 Ubuntu 的 apt 包 管 理 器 。 苹 果 公 司 本 可 
以 确保 他 们 的 操作 系统 能 够 与 apt 兼容 ， 但 他 们 不 希望 开发 人 员 绕 过 他 们 的 XCode 和 App Store 
的 “渠道 "， 这 显然 是 出 于 商业 利益 考虑 。 所 以 一 些 勇敢 的 Ruby 开发 人 员 开发 了 他 们 自己 的 包 
管理 器 。 它 几乎 和 apt 或 任何 其 他 操作 系统 自 带 的 二 进 制 包 管理 器 一 样 好 。 具 体 参见 代码 清 
单 A-4。 


代码 清单 A-4 ”安装 brew 


$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/ 
install/master/install)" 


系统 会 要 求 按 回 车 键 确认 ， 并 输入 root 或 者 sudo 密码 。 因 此 ， 在 输入 密码 并 且 安 装 脚本 开 
始 顺 利 执行 之 前 ， 不 要 离开 去 煮 咖啡 。 























A.5.2 一 些 工具 包 
brew 装 好 之 后 ， 可 能 还 需要 安装 一 些 好 用 的 Linux 工具 ， 如 代码 清单 A-5 所 示 。 


代码 清单 A-5 “安装 开发 工具 


$ brew install wget htop tree pandoc asciidoctor 





@ +51 Homebrew package manager 的 维基 百科 页 面 。 
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A.5.3 准备 工作 


如 果 你 对 NLP 和 软件 开发 非常 认真 ， 那 么 需要 确保 操作 系统 准备 妥当 以 便 能 够 胜任 工作 。 
下 面 是 我 们 在 Mac 上 创建 新 的 用 户 账 户 时 安装 的 内 容 。 

E Snappy: 用 于 屏幕 截图 。 

E CopyClip: 用 于 管理 剪贴 板 。 

如 果 想 与 其 他 NLP 开发 者 分 享 屏 幕 截 图 ， 就 需要 一 个 屏幕 截图 软件 ， 如 Snappy。 而 剪贴 板 
管理 器 ( 如 CopyClip ) 则 允许 你 一 次 复制 和 粘贴 多 项 内 容 ， 并 在 不 重启 系统 的 情况 下 保留 剪贴 板 
历史 记录 。 剪 贴 板 管理 器 提供 在 图 形 用 户 界面 执行 复制 和 粘贴 操作 时 搜索 控制 台历 史 ( [ctr1l] - 
[R] ) 的 强大 功能 。 

同时 我 们 还 应 该 增加 bash shell 的 历史 记录 ， 添 加 一 些 更 安全 的 rm -f 别名 ,设置 默认 编辑 
器 ,创建 彩色 提示 符 文 本 ， 以 及 为 浏览 器 、 文 本 编辑 器 和 代码 合并 工具 添加 open fr, 具体 如 
代码 清单 A-6 所 示 。 


代码 清单 A-6 bash_profile 脚本 


#!/usr/bin/env bash 
echo "Running customized ~/.bash_profile script: 'SO' ....... id 


export HI 
export HI 
append 
shopt -s 
allow 
shopt -s 
comman 
shopt -s 


shopt -s 
check t 
es o 
shopt -s 
grep re 
export GR 
grep ma 
export GR 
record 
iona 
export PR 
.bas 
export PR 
.bas 
# so it d 
readonly 
# USAGE: 
Lf. -L =€ 
in -s 
fire 


























STFILESIZE=10000000 
STSIZE=10000000 


the history file after each session 
histappend 

failed commands to be re-edited with Ctrl-R 
histreedit 


d substitions are first presented to user before execution 
histverify 


store multiline commands in a single history entry 


cmdhist 

he window size after each command and, if necessary, update the valu 
f LINES and COLUMNS 

checkwinsize 

sults are colorized 

EP_OPTIONS='--color=always' 

tches are bold purple (magenta) 

EP_COLOR='1;35;40' 

everything you ever do at the shell in a file that won't be unintent 
lly cleared or truncated by the OS 

OMPT_COMMAND='echo "# cd $PWD" >> ~/ 

h_history forever; 'SPROMPT_ COMMAND 

OMPT_COMMAND="history -a; history -c; history -r; history 1 >> ~/ 

h history forever; S$PROMPT COMMAND" 

oesn't get changed again 

PROMPT COMMAND 

subl http://******.com # opens in a new tab 

/usr/local/bin/firefox ] then 
/Applications/Firefox.app/Contents/MacOS/firefox /usr/local/bin/ 
fox 
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fi 
alias firefox='open -a Firefox' 
# USAGE: subl file.py 


if [ ! -f /usr/local/bin/subl ]; then 
ln -s /Applications/Sublime\ Text.app/Contents/SharedSupport/bin/subl / 
usr/local/bin/subl 

fi 

# USAGE: meld filel file2 file3 

if [ ! -f /usr/local/bin/meld ]; then 


ln -s /Applications/Meld.app/Contents/MacOS/Meld /usr/local/bin/meld 
fi 
export VISUAL='subl -w' 
export EDITOR="SVISUAL" 
# you can use - 

f to override these interactive nags for destructive disk writes 
alias rm="rm -i" 
alias mv="mv -i" 
alias ..="cd .." 
alias ...="cd ../.. 


可 以 使 用 GitHubGist 搜索 功能 找到 其 他 bash_profile 脚本 。 


" 


用 于 包 管 理 的 命令 行 工 具 (如 Windows 上 的 cygwin) 并 不 是 那么 好 。 但 如 果 在 Windows 机 需 
上 安装 了 GitGUI， 那 么 会 得 到 一 个 bash 提示 符 和 一 个 能 运行 Python REPL 控制 台 的 可 用 终端 工具 。 

(1) 下 载 并 安装 git 安装 程序 。 

(2) 下 载 并 安装 GitHub Desktop. 

git 安装 程序 附带 了 一 个 版 本 的 bash shell， 应 该 可 以 在 Windows 中 很 好 地 工作 , 但 它 安装 的 
git-gui 对 用 户 不 是 十 分 友好 ， 特 别 是 对 于 初学 者 更 是 如 此 。 除 非 在 命令 行 (Windows 下 的 bash 
shell) 里 使 用 git， 否 则 在 Windows 下 所 有 git 的 push/pull/merge 需求 都 应 通过 GitHub Desktop 
来 完成 。 在 本 书 的 整个 编辑 过 程 中 ， 我 们 遇 到 了 一 些 问 题 : 当 出 现 版 本 冲突 时 ，git-gui 会 执行 
一 些 无 法 预料 的 操作 ， 这 些 操 作 覆 盖 了 其 他 人 提交 的 内 容 ， 即 使 在 不 涉及 冲突 的 文件 中 也 是 如 此 。 
这 就 是 我 们 建议 在 原始 git 和 git-bash 之 上 安装 GitHub Desktop 的 原因 。GitHub Desktop 提供 
了 对 用 户 更 加 友好 的 git 体验 ， 让 你 知道 什么 时 候 需 要 pull 或 push 或 merge 更 改 结果 。” 

一 日 在 Windows 终端 上 运行 了 一 个 shell， 就 可 以 像 我 们 在 其 他 部 分 一 样 使 用 github 仓库 
README 中 的 说 明 ， 安 装 Anaconda 并 使 用 conda 包 管理 器 来 安装 nlpia 包 。 







































































虚拟 化 
如 果 对 Windows 感到 不 满意 ， 可 以 安装 VirtualBox 或 者 Docker， 然 后 用 Ubuntu 操作 系统 








Q@ 非常 感谢 Manning 出 版 社 的 Benjamin Berg 和 Darren Meiss 发 现 了 这 一 点 ， 也 非常 感谢 他 们 为 了 让 本 书 
符合 要 求 而 付出 的 所 有 努力 。 
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创建 一 个 虚拟 机 。 这 个 主题 需要 用 整 本 书 (或 至 少 一 章 ) 来 介绍 ， 在 这 个 领域 有 比 我 们 做 得 更 


好 的 人 : 
E Jason Brownlee; 
E Jeroen Janssens; 
E Vik Paruchuri; 
E Jamie Hall. 


在 Windows 世界 中 使 用 Linux 的 另 一 种 方法 是 使 用 微软 的 Ubuntu shell 应 用 程序 。 我 没有 用 过 ， 


所 以 我 无 法 保证 它 与 你 要 安装 的 Python aA 
分 享 你 的 知识 ， 并 在 文档 上 发 起 一 个 新 功能 ( featu 











Eo 如果 你 尝试 使 用 , 请 在 nlpia 仓库 中 与 我 们 
re ) 或 拉 取 ( pull ) 请 求 。Manning 出 版 社 网 站 





上 的 本 书 论坛 也 是 你 分 享 知识 和 获取 帮助 的 好 地 方 。 


A7 NLPIA 自动 化 


幸运 的 是 ，nlpia 有 一 些 自动 环境 配置 程序 ， 可 以 下 载 NLTK Spacy, Word2vec 模型 以 及 


本 书 所 需 的 数据 。 只 要 调用 的 nlpia Rear PAL 
的 数据 集 或 模型 ， 就 会 触发 这 些 下 载 程序 。 但是， 





(如 segment sentences() ) 需要 任何 上 述 
该 软件 还 在 开发 中 ， 并 不 断 由 像 各 位 一 样 的 读 





者 进行 维护 和 扩展 。 因 此 ， 当 nlpia 的 自动 化 失败 时 ， 你 可 能 想 知道 如 何 手动 安装 这 些 软件 包 
并 下 载 所 需 的 数据 , 从 而 使 它们 能 够 正常 工作 。 你 也 可 能 只 对 那些 用 于 句子 解析 和 词性 标注 的 数 
据 集 感到 好 奇 。 因 此 ， 如 果 要 自 定义 环境 ， 后 续 的 附录 将 展示 如 何 安装 和 配置 功能 齐全 的 NLP 








开发 环境 所 需 的 各 个 组 件 。 





UO B OOO Python 
A0 OO OL 





为 了 充分 挖掘 本 书 的 价值 ， 需 要 熟悉 Python ， 需 要 达到 玩 转 Python 的 程度 。 当 代码 不 能 
常 运行 时 ， 需 要 能 够 尝试 各 种 方法 ， 探 寻 一 种 能 够 让 Python 按照 我 们 的 设想 运行 的 方式 。 

即使 代码 运行 正常 ， 各 种 尝试 也 有 助 于 发 现 很 酷 的 新 方法 或 者 隐藏 在 代码 中 的 “怪物 ”。 
为 类 似 于 英语 这 样 的 语言 有 很 多 不 同 的 表达 方式 , 所 以 隐藏 的 错误 和 边界 情况 在 自然 语言 处 理 中 
非常 常见 。 

为 了 获得 乐趣 ， 你 只 需 像 孩子 一 样 ， 对 Python 代码 进行 各 种 尝试 。 如 果 是 复制 和 粘贴 代码 ， 
那么 试 着 去 修改 。 尝 试 一 下 破坏 并 修复 代码 , 将 代码 拆 分 成 尽 可 能 多 的 独立 表达 式 , 通过 函数 或 
类 为 代码 片段 创建 模块 ， 然 后 将 其 还 原 成 尽 可 能 少 的 代码 行 。 

使 用 自己 创建 的 数据 结构 、 模 型 或 函数 随意 尝试 。 尝试 运行 你 认为 应 该 包含 在 模块 或 类 中 的 
命令 。 经 常 使 用 键盘 上 的 Tab 键 。 当 按 下 Tab 键 时 ,编辑 带 或 shell 会 尝试 基于 已 经 完成 键入 的 
变量 、 类 、 函 数 、 方 法 、 属 性 或 者 路 径 名 称 来 补 全 你 的 输入 。 

使 用 Python 和 shell 提供 的 所 有 help 命令 。 就 像 Linux shell 中 的 man 一 样 ，help () 是 内 
置 在 Python 中 的 好 朋友 。 尝 试 在 Python 控制 台 输 入 help 或 help(object)。 当 IPython 上 运 
行 ? 和 ?? 命 令 失 败 时 ， 它 应 该 也 能 正常 运行 。 如 果 读 者 以 前 从 未 这 样 做 过 ， 尝 试 一 下 在 Jupyter 
控制 台 或 Jupyter 记事 本 中 运行 object? 和 object?? 命 令 。 

这 篇 Python 入 门 介绍 的 剩余 部 分 列举 了 本 书 中 用 到 的 数据 结构 和 函数 ， 以 便 我 们 可 以 开始 
使 用 它们 : 

E str 和 bytes; 
ord 和 chr; 

.format (); 
dict 和 OrderedDict; 


list, np.array, pd.Series; 




































































pd. DataFrame, 


我 们 还 介绍 了 在 本 书 和 nlpia 包 中 用 到 的 一 些 模式 和 内 置 Python 函数 : 
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E ”列表 解析 式 一 一 [x for x in range(10)]; 

国生 成 需 一 一 (x for x in range(1000000000)); 

E 正则 表达 式 re.match(r'[A-Za-z ]+', 'Hello World'); 
国文 件 操 作 符 open ('path/to/file.txt'), 


B1 处 理 字符 串 


自然 语言 处 理 完全 就 是 处 理 字 符 串 。Python 3 中 的 字符 串 有 很 多 可 能 会 令 人 感到 意外 的 怪异 
之 处 , 特别 当 大 家 有 丰富 的 Python 2 经 验 时 更 是 如 此 。 因 此 , 大 家 需要 熟悉 字符 串 以 及 处 理 它 们 
的 所 有 方式 ， 以 便 能 以 轻松 处 理 自然 语言 中 的 字符 串 。 














B.1.1 字符 串 类 型 ( str 和 bytes ) 





字符 串 (str) 是 Unicode 字符 序列 。 如 果 在 str 中 使 用 非 ASCH 字符 ， 则 这 些 字 符 可 能 
含 多 个 字 节 。 如 果 从 网 上 复制 字符 串 并 粘贴 到 Python 控制 台 或 者 程序 中 ， 会 经 常 包含 非 ASCII 
字符 ， 其 中 有 一 些 还 很 难 发 现 ， 例 如 那些 不 对 称 的 引导 和 省 略 号 。 

当 使 用 Python 的 open 命令 打开 文件 时 ， 默 认 情 况 下 该 文件 会 被 作为 str 读 和 信 。 如 果 打 开 
二 进 制 文件 ， 如 预 训练 Word2vec 模型 的 “.txt” 文件 ， 却 没有 指定 mode = 'b', 那么 文件 将 无 
法 正确 加 载 。 尽 管 gensim.KeyedVectors 模型 的 类 型 可 能 是 文本 而 不 是 二 进 制 文件 , 但 必须 
以 二 进 制 模式 打开 ， 这 样 gensim 在 加 载 模型 时 Unicode 字符 不 会 出 现 乱 码 ， 这 一 点 对 于 使 用 
Python 2 保存 的 CSV 文件 或 其 他 任何 文本 文件 都 适用 。 

二 进 制 文件 (bytes ) 是 8 位 的 数组 ， 通 常用 于 保存 ASCU 字符 或 扩展 ASCI 字符 ( 十 进 
制 整 数值 大 于 128 的 字符 )。 二 进 制 文件 有 时 也 用 来 存储 RAW 格式 图 像 、WAV 音频 文件 或 其 他 
二 进 制 数据 对 象 。 




































































B.1.2 Python 中 的 模板 ( .format() ) 


Python 附带 了 一 个 多 功能 字符 囊 模板 系统 ,允许 使 用 变量 值 填充 字符 串 。 这 可 以 让 我 们 使 用 
数据 库 的 结果 或 者 运行 中 的 python 程序 (locals () ) 的 上 下 文 创建 动态 的 响应 。 

















B.2 Python 中 的 映射 ( dict 和 OrderedDict ) 
哈 希 表 ( 或 映射 ) 数据 结构 内 置 在 Python 的 dict 对 象 中 。 但 是 dict 不 强制 一 致 的 键 顺序 ， 


























D 没有 所 谓 的 官方 扩展 ASCH 字符 集 , 所 以 不 要 将 它们 用 于 NLP, 除非 想 让 机 器 在 学 习 通用 语言 模型 时 感 
到 困惑 。 














382 附录 B 有 趣 的 Python 和 正则 表达 式 


因此 标准 Python 库 中 的 collections 模块 包含 一 个 OrderedDict， 人 允许 大 家 控制 键 值 对 以 
一 致 的 顺序 来 存储 〈 基于 插入 新 键 时 的 顺序 )。 








B3 ”正则 表达 式 


正则 表达 式 是 具备 自己 的 编程 语言 的 小 型 计算 机 程序 。 每 个 像 r' [a-z] +' 这 样 的 正则 表 
达 式 字符 串 都 可 以 编译 成 一 个 小 程序 , 用 于 在 其 他 字符 串 上 运行 以 查找 匹配 项 。 我 们 在 后 面 提供 
了 快速 参考 和 一 些 示 例 , 但 是 如 果 要 认真 对 待 NLP 的 话 , 那么 可 能 希望 深入 研究 一 些 在 线 教程 。 
像 前 面 一 样 ， 最 好 的 学 习 方 法 是 在 命令 行 中 进行 各 种 尝试 。nlpia 包 有 很 多 自然 语言 文本 文档 
和 一 些 有 用 的 正则 表达 式 示 例 供 大 家 尝试 。 

正则 表达 式 定义 了 条 件 表达 式 序列 ( 类 似 于 Python 中 的 if 语句 )， 每 个 条 件 表达 式 都 作用 
于 单个 字符 。 条 件 序列 形成 一 棵 树 ， 最 终 得 出 “输入 字符 串 是 否 匹 配 ” 这 个 问题 的 答案 。 因 为 每 
个 正则 表达 式 只 能 匹配 有 限 数量 的 字符 串 并 且 具 有 有 限 数量 的 条 件 分 支 , 所 以 它 定义 了 一 个 有 限 
状态 机 (FSM )。” 

re 包 是 Python 中 默认 的 正则 表达 式 编译 器 /解释 器 , 但 新 的 官方 包 是 regex, 可 以 使 用 Pip 
install regex 轻松 安装 。 后 者 更 强大 ， 能 更 好 地 支持 Unicode 字符 和 模糊 匹配 ( 对 于 NLP 
来 说 非常 棒 )。 下 面 的 示例 不 需要 这 些 额外 功能 ， 因 此 可 以 使 用 上 述 两 个 包 中 的 任意 一 个 。 只 需 
要 学 习 一 些 正则 表达 式 符号 ， 就 可 以 解决 本 书 中 的 问题 : 




































































a | 或 (OR ) 符号 ; 

E ”() 一 一 用 括号 分 组 ， 就 像 在 Python 表达 式 中 一 样 ; 

E [] 一 一 字符 类 ; 

m \s、\b、\d、\w 一 一 常见 字符 类 的 快捷 方式 ; 

E *x、?、1 些 限制 字符 类 出 现 次 数 的 快捷 方式 ; 

m {7，10} 一 一 当 *、?、 和 + 不 够 用 时 ， 可 以 使 用 花 括 号 指定 出 现 次 数 的 范围 。 








B.3.1 “|” 或 

“|” 操 作 符 用 于 分 隔 字符 串 ， 这 些 字符 串 可 以 选择 性 地 匹配 输入 字符 串 从 而 得 到 正则 表达 式 
的 整体 匹配 。 因此, 正则 表达 式 Hobson|Cole|Hannes 将 匹配 本 书 任何 一 个 作者 的 名 字 ( 名 )。 
和 其 他 大 多 数 编程 语言 一 样 ， 模 式 从 左 到 右 进行 匹配 ， 当 匹配 上 之 后 停止 匹配 (“短路”)。 所 以 
在 这 种 情况 下 ，OR 符号 (| ) 之 间 模 式 的 顺序 不 会 影响 匹配 ， 因 为 所 有 模式 ( 作者 名 字 ) 对 应 的 
前 两 个 字符 都 是 唯一 的 字符 序列 。 代 码 清单 B-1 展示 了 作者 姓名 的 位 置 变 换 , 便于 大 家 自己 查看 
结果 。 

































































D 这 只 适用 于 严格 的 正则 表达 式 语 法 ， 不 包括 前 向 环视 和 后 向 环视 的 情况 。 
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代码 清单 B-1 正则 表达 式 中 的 OR 符号 





>>> import re 

>>> re.findall(r'Hannes|Hobson|Cole', 'Hobson Lane, Cole Howard, 
™ and Hannes Max Hapke') 

{'Hobson', 'Cole', 'Hannes'] 





finda KARERA RER PARIA AE 
正则 表达 式 匹配 结果 ， 因 此 其 返回 的 是 一 个 列表 
尝试 Python 的 趣味 性 ， 看 看 是 否 可 以 让 正则 表达 式 在 第 一 个 模式 上 “短路 "， 而 当 由 人 来 
判断 这 3 个 模式 时 ， 可 能 会 选择 更 好 的 匹配 : 
>>> re.findall(r'H|Hobson|Cole', 'Hobson Lane, Cole Howard, 


™ and Hannes Max Hapke') 
(as, 'Cole', 'H', YH! 'H'] 














B.3.2 “()” 一 一 分 组 


可 以 使 用 括号 将 多 个 符号 模式 分 组 到 一 个 表达 式 中 。 每 个 分 组 表达 式 作 为 一 个 整体 进行 匹 
配 。 所 以 r' (kitt|dogg) ie' DLAC “kitty” a “doggy”. WRKAIES, r'kitt|dogg 将 匹 
配 “kitt” 或 “doggy”( 注意 没有 “kitty”)。 

分 组 有 男 一 个 目的 , 它们 可 用 于 捕获 ( 提取 ) 输入 文本 的 一 部 分 。 每 个 分 组 都 在 groups () 
列表 中 分 配 了 一 个 位 置 ， 可 以 根据 它们 的 索引 从 左 到 右 进 行 提 取 。. group () 方 法 返回 整个 表达 
式 的 默认 整体 组 。 可 以 使 用 前 一 个 组 来 捕获 kitty/doggy 正则 表达 式 的 “ 词 干 ”( 没有 y 的 部 分 )， 
如 代码 清单 B-2 所 示 。 


代码 清单 B-2 正则 表达 式 中 的 分 组 括号 





>>> import re 

















>>> match = re.match(r' (kittl|ldogg)y', "doggy") 

>>> match.group () 

'doggy' 

>>> match.group (0) 

'dogg' 

>>> match.groups () 

('dogg',) 

>>> match = re.match (r'((kitt|dogg) (y))', "doggy") 如 果 想 捕获 其 分 组 
>>> match.groups () 中 的 每 部 分 
('doggy', 'dogg', 'y') S R 

>>> match.group (2) 

ry 





如 果 和 希望 /需要 为 命名 分 组 ， 以 便 将 信息 提取 为 结构 化 数据 类 型 (dict )， 则 需要 在 分 组 的 
开头 使 用 符号 P， 如 (P?<animal stemm>dogg|kitt) y, i. 








D 命名 正则 表达 式 分 组 :“P” 代 表 什么 ? 
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B.3.3 “[]” 一 一 字符 类 

字符 类 等 同 于 一 组 字符 之 间 使 用 OR 符号 (|) 连接 ， 因 此 [abcd] 相 当 于 (alblcld)， 
[abc123] 相 当 于 (alblcl11213) 。 

如 果 字 符 类 中 的 某 些 字 符 是 字符 表 (ASCH 或 Unicode ) 中 的 连续 字符 ， 则 可 以 在 字符 之 间 
使 用 连 字 符 进 行 缩写 。 因 此 [a-d] 相 当 于 [abcd] 或 (alblcld) ，[a-cl-3] 是 [abc123] 和 
(alblcl11213) 的 缩写 。 
































字符 类 快捷 方式 : 

E \s [\t\n\rl, BAF; 

E \b— FRA RF; 

m \d 一 一 [0-9] ， 一 位 数字 ; 

mg \w [a-zA-Z0-9 ] ， 一 个 词 或 者 变量 





BA 代码 风格 


即使 不 打算 与 他 人 共享 代码 ， 也 要 尝试 遵守 PEP8。 未 来 大 家 将 会 为 能 够 高 效 地 阅读 和 调试 
代码 而 心 存 感激 。 将 代码 风格 检查 工具 或 自动 风格 修正 器 添加 到 编辑 器 或 IDE 中 是 引入 PEP8 T 
具 的 最 简单 方法 。 

男 一 种 有 助 于 自然 语言 处 理 的 风格 约定 是 如 何在 两 个 都 是 引号 的 符号 (' 和") 之 间 做 出 选 
择 。 无 论 怎么 选择 ， 都 要 保持 一 致 性 。 有 一 个 方法 可 以 帮助 专业 人 士 提高 代码 的 可 读 性 。 在 定义 
用 于 机 器 处 理 的 字符 串 时 ， 总 是 使 用 单 引 号 〈' )， 例 如 正则 表达 式 、 标 记 和 标签 。 然 后 ， 对 于 人 
使 用 的 自然 语言 语料库 ， 可 以 使 用 双 引 号 ('"' )。 

对 于 原始 字符 串 (*' A r" ) 怎 么 选择 呢 ? 所 有 正则 表达 式 都 应 该 是 单 引号 的 原始 字符 串 ， 
如 r'match [ ] this'， 即 使 它们 不 包含 反 斜 杜 。 文 档 字符 串 应 该 是 三 引号 的 原始 字符 串 ， 
如 r"""This function does NLP """。 这 样 做 之 后 ， 如 果 曾 经 为 doctests 或 正则 表达 式 添 


个 
山 


加 反 斜 杠 的 话 ， 那 么 它们 会 达到 所 期 望 的 效果 。 


B5 技巧 


在 加 入 生产 项 目 之 前 ， 大 家 可 以 找 一 个 交互 式 编码 挑战 网 站 来 磨炼 自己 的 Python 技能 。 在 
阅读 本 书 时 ， 大 家 可 以 每 周 做 一 到 两 次 。 

(1) CodingBat 一 一 在 基于 Web 的 交互 式 Python 解释 器 中 的 有 趣 挑战 。 

(2 ) Donne Martin 的 编码 挑战 个 基于 Jupyter 记事 本 和 Anki 闪 卡 的 开源 代码 库 ， 有 助 
于 学 习 算 法 和 数据 。 

(3 ) DataCamp 

























































































DataCamp 上 的 Pandas 和 Python 教程 。 











D 这 个 在 stack overflow 网 站 上 提出 的 问题 解释 了 原因 。 


UU Cam uuu 
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向 量 和 数字 是 计算 机 思考 的 语言 。 位 是 计算 机 处 理 的 最 基本 的 “数字 ”， 有 点 儿 像 人 类 思考 
FE (字符 ) 是 词 中 最 基本 、 不 可 切 分 的 部 分 。 所 有 数学 运算 都 可 以 简化 为 位 序列 上 的 
若干 逻辑 运算 。 当 我 们 以 类 似 的 方式 阅读 时 ， 人 脑 也 是 在 处 理 字 符 序列 。 因 此 ， 如 果 想 要 教会 计 
算 机 理解 我 们 的 词 ， 那么 第 一 个 挑战 就 是 提出 计算 机 可 用 的 , 用 于 表示 字符 、 词 、 句 子 和 中 间 概 


WER, F 


念 的 向 量 ， 从 而 实现 看 似 智能 的 行为 。 


向 量 





向 量 是 一 个 有 序 的 数字 序列 ， 没 有 任何 “跳跃 ”。 在 scikit learn 和 numpy 中 ， 向 量 是 






































一 个 稠密 的 数组 (array )， 它 的 使 用 方式 很 像 Python 的 数字 列表 (1ist )。 我们 使 用 numpy 数组 而 
不 是 Python 列表 的 主要 原因 是 前 者 的 速度 快 很 多 ( 是 后 者 的 100 倍 )， 并 且 内 存 占 用 更 少 ( 只 有 
后 者 的 1/4 )。 另 外 , 我 们 可 以 使 用 向 量 运 算 , 例如 ,可 以 将 整个 数组 乘 以 一 个 值 ， 而 无 须 使 用 for 
循环 遍历 每 个 值 。 当 有 大 量 文本 包含 基于 向 量 和 数字 表示 的 大 量 信息 时 , 这 一 点 非常 重要 。 创建 
向 量 过 程 如 代码 清单 C-1 所 示 。 


代码 清单 C-1 创建 向 量 


>>> import numpy as np 





SSS. np 
array ( 


>>> np. 


array ( 
>>> x 
>>> x 
array ( 
>>> x[ 
>>> x 
array ( 
>>> x. 











.array (range (4) ) 

Op. Ts Sp old 

arange (4) 

OF Ly Ze 3) 

= np.arange(0.5, 4, 1) 





Ob po 2. (2D SDI) 
shape 
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(4,) 

>>> x.T.shape 

(4,) 

数组 有 一 些 列表 没有 的 属性 , 例如. shape 和 .T。. shape 属性 包含 向 量 维度 的 长 度 或 大 小 
( 即 其 包含 的 对 象 个 数 )。 当 命名 数组 和 向 量 (或 者 只 是 数字 ) 变量 时 ,我 们 使 用 小 写字 母 ， 就 像 
正式 的 数学 符号 一 样 。 在 线性 代数 、 物 理 和 工程 学 课本 中 ， 这些 字 母 通 常用 粗 体 表示 ， 有 时 在 字 
母 上 方 用 箭头 修饰 (特别 是 使 用 黑板 或 白板 的 教授 们 )。 

如 果 听 说 过 矩阵， 那么 可 能 知道 它 可 以 被 看 成 是 一 个 行 问 量 数组 ， 如 下 : 

>>> np.array([range(4), range (4)]) 

>>> array([[0, 1, 2, 3], 

[Op Ty 2.23113 

>>> X = np.array([range(4), range(4)]) 

>>> X.shape 

(2, 4) 


>>> X.T.shape 
(4, 2) 


T RHEB PIEKE EERE, EI Tea Ze EP EA FP BET A RES 1 
到 的 和 矩阵。 所 以 ， 给 定 下 面 一 个 和 矩阵 A: 


>>> A = np.array([[1, 2, 3], [4, 5, 6]]) 

















>>> A 
array([[1, 2, 3], 
[4, 5, 6]]) 
FT DV A EAE MEE : 
>>> A.T 
array([[1, 4], 
[2, 5], 
[3, 6]]) 


因此 ， 如 果 A 初始 化 为 行 向 量 的 集合 ,那么 RAR.T 将 会 把 这 些 行 向 量 转换 为 列 向 量 。 


距离 


两 个 向 量 之 间 的 距离 可 以 通过 很 多 不 同 的 方式 来 度量 。 两 个 向 量 的 差 还 是 向 量 ， 如 代码 清 
单 C-2 所 示 。 


代码 清单 C-2 向量 的 差 








at 
ta 


387 


>>> np.diff(A, axis=0) 
array([[3, 3, 3]] 

>>> A[1] - A[0] 
array([3, 3, 3]) 


[3，3，3] 向 量 确切 地 给 出 了 两 个 向 量 在 每 个 维度 的 距离 。 想 象 一 下 ,假设 上 述 两 个 向 量 
分 别 代表 两 个 人 所 在 的 曼哈顿 街区 和 楼 层 : 向 量 的 差 就 是 从 其 中 一 个 位 置 到 另 一 个 位 置 需要 行走 
的 确切 方向 。 如 果 你 在 第 一 街 和 第 二 道 拐角 公寓 的 3 楼 , 那么 你 对 应 街 、 道 、 楼 层 的 坐标 就 是 [1， 
2，3] ， 就 和 上 例 中 一 样 。 如 果 你 的 Python 导师 在 第 四 街 和 第 五 道 拐角 公寓 的 6 楼 ， 那 么 她 的 
坐标 就 是 [4，5， 6] 。 所 以 ， 这 两 个 向 量 之 间 的 差 值 ( [3，3， 31) 表示 你 需要 向 北 走 3 个 街 
区 ,向 东 走 3 个 街区 ， 然 后 向 上 疏 3 个 楼 层 到 达 她 的 公寓 。 实 际 上 ， 向量 和 数学 并 不 关心 像 地 心 
引力 这 种 烦人 的 细节 。 因 此 ， 代 数学 假设 你 可 以 踏 着 窗户 外 面 “ 回 到 未 来 ”中 的 悬浮 滑板 上 ,在 
车 流 上 方 的 3 层 楼 高 处 快速 行驶 ， 然 后 到 达 线 性 代数 导师 的 公寓 

如 果 你 告诉 导师 她 的 公寓 和 你 的 公寓 的 距离 是 [3，3， 3] ， 她 会 嘲笑 这 个 思春 的 精确 率 。 
当 谈 论 距 离 时 ， 稍 微 聪 明 的 人 会 将 上 述 3 个 数字 简化 成 一 个 数字 ， 即 一 个 标量 。 所 以 ， 如 果 你 说 
她 的 位 置 有 6 个 街区 远 ， 她 就 会 明白 你 的 意思 , 你 忽略 了 不 重要 的 楼 层 维度 ， 因 为 这 对 你 的 悬浮 
滑板 (或 电梯 ) 而 言 不 值 一 提 。 除 了 忽略 某 些 维度 ， 你 还 使 用 了 一 种 有 时 称 为 曼哈顿 距离 的 巧 
妙 的 距离 度量 。 后 面 ， 我 们 会 展示 如 何 计算 300 维 词 向 量 之 间 的 曼哈顿 距离 ， 就 像 计 算 二 维 公 
寓 位 置 向 量 一 样 容易 。 


1. 欧 几 里 得 距离 


当 提 到 “ 像 乌鸦 飞行 一 样 ”时 ， 我 们 说 的 就 是 二 维 向 量 的 欧 几 里 得 距离 ( 即 欧式 距离 )。 它 
是 由 向 量 定义 的 空间 中 两 个 点 之 间 的 直线 距离 〈 即 向 量 的 “尾部 ”或 “ 头 部 ”之 间 的 长 度 )。 
欧 几 里 得 距离 也 称 为 L2 范 数 ， 因 为 它 是 两 个 向 量 差 的 长 度 。L2 中 的 “L” 代 表 长 度 。L2 中 
的 “2” 表 示 在 对 这 些 值 求 和 之 前 ( 且 在 求 和 的 平方 根 之 前 ) 向 量 差 的 各 个 维度 对 应 的 指数 (平方 )。 
欧 几 里 得 距离 也 称 为 RSS 距离 ， 其 表示 距离 或 差 值 平方 和 的 平方 根 ， 即 : 


euclidean_distance = np.sqrt(((vectorl - vector2) ** 2).sum()) 


下 面 我 们 看 一 下 在 Patrick Winston 的 AI 系列 讲座 中 提 到 的 一 个 NLP 示例 中 的 一 些 向 量 之 间 
的 欧 几 里 得 距离 。 

假设 有 一 个 二 维 词 频 ( 词 袋 ) 向 量 ， 对 应 “hack” 和 “computer” 在 “Wired Magazine” fil 
“Town and Country” 两 个 杂志 的 文章 中 出 现 的 次 数 。 我 们 和 希望 能 够 在 研究 某 些 内 容 时 能 够 查询 这 
些 文章 ， 从 而 找到 有 关 特 定 主题 的 一 些 结果 。 查 询 字符 串 中 包含 “hacking” 和 “computers” 两 
个 词 。 对 于 词 “hack” 和 “computer”， 我 们 的 查询 字符 串 词 向 量 是 [1，1] ， 因 为 这 是 我 们 的 查 
询 经 过 分 词 和 词 干 还 原 后 的 结果 ( 见 第 2 章 )。 
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现在 来 看 哪些 文章 与 我 们 的 查询 在 欧 几 里 得 距离 上 最 接近 。 欧 几 里 得 距离 是 图 C-1 中 4 条 线 
的 长 度 。 它 们 看 起 来 非常 接近 , 是 不 是 ?为 了 让 搜索 引擎 针对 此 查询 返回 一 些 有 用 的 文章 , 我 们 
该 如 何 解 决 这 个 问题 ? 





© © . 
© @ Wired Magazine 


computer 的 出 现 次 数 
号 
By 


© 
© o Town and Country 
@ 





hack 的 出 现 次 数 
图 C-1 欧 几 里 得 距离 的 计算 














我 们 可 以 计算 词 数 相对 于 文档 中 词 总 数 的 比率 , 并 基于 该 比率 计算 欧 几 里 得 距离 。 但 是 在 第 
3 章 中 我 们 已 经 学 了 更 好 的 计算 该 比率 的 方法 一 一 TF-IDF。TF-IDF 向 量 之 间 的 欧 几 里 得 距离 倾 
向 于 成 为 文档 距离 〈 逆 相似 性 ) 的 良好 衡量 标准 。 

如 果 要 使 用 限定 的 欧 几 里 得 距离 , 我 们 可 以 将 所 有 向 量 归 一 化 为 单位 长 度 ( 每 个 向 量 长 度 为 
1 )。 这 将 确保 所 有 向 量 之 间 的 距离 都 在 0 到 2 之 间 。 


2. 余弦 距离 


男 一 种 对 距离 计算 的 调整 使 我 们 的 距离 值 更 加 有 用 。 余 弦 距 离 是 余弦 相似 度 的 取 反 结 
(cosine distance = 1 - cosine similarity), 余弦 相似 度 是 两 个 向 量 之 间 夹 角 的 余 
弦 。 因 此 ， 在 上 例 中 ， 查 询 字符 串 的 TF 向 量 与 “Wired Magazine” 文 章 的 向 量 之 间 的 夹 角 远 小 
于 该 查询 与 “Town and Country” 文 章 之 间 的 夹 角 。 这 正 是 我 们 想 要 的 结果 。 因 为 查询 “hacking 
computers” 应 该 为 我 们 返回 “Wired Magazine” 杂 志 的 文章 ， 而 不 是 关于 骑马 (“hacking”)“"、 
打猎 、 晚 实 和 乡村 风格 的 室内 设计 等 娱乐 活动 的 文章 。 

该 距离 可 以 通过 计算 两 个 归 一 化 向 量 的 点 积 来 进行 有 效 计 算 ， 归 一 化 向 量 即 每 个 向 量 均 除 以 
自己 的 长 度 ， 如 代码 清单 C-3 所 示 。 


代码 清单 C-3 ”余弦 距离 


>>> import numpy as np 

>>> vector_query = np.array([l, 1]) 
>>> Vector tc = np.array([1l, 0]) 
>>> vector_wired = np.array([5, 6]) 

















>>> normalized_query = vector_query / np.linalg.norm(vector_query) 
>>> normalized_tc = vector tc / np.linalg.norm(vector_tc) 





D 详 见 维基 百科 文章 “Hack (horse)” 中 的 单词 “hack” 在 马术 领域 的 用 法 。 
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>>> normalized_wired = vector wired / np.linalg.norm(vector_wired) 


>>> normalized query 

array (l 0.70710678, 0.70710678] 
>>> normalized tc 

array([ Liz 0.]) 

>>> normalized_wired 

array([ 0.6401844 , 0.76822128] 


我 们 的 查询 TF 向 量 与 其 他 两 个 TF 向 量 之 间 的 余弦 相似 度 (向 量 之 间 夹 角 的 余弦 ) 分 别 为 : 


>>> np.dot (normalized query, normalized tc) # cosine similarity 
0.70710678118654746 

>>> np.dot (normalized query, normalized wired) # cosine similarity 
0.99589320646770374 


我 们 的 查询 与 这 两 个 TF 向 量 之 间 的 余弦 距离 是 1 减 去 余弦 相似 度 ， 即 : 


>>> 1 - np.dot (normalized query, normalized_tc) # cosine distance 
0.29289321881345254 

>>> 1 - np.dot (normalized query, normalized wired) # cosine distance 
0.0041067935322962601 


下 面 给 出 了 余弦 相似 性 用 于 计算 NLP 中 TF 向 量 相似 度 的 原因 : 

E 计算 简单 (只 需 乘法 和 加 法 ); 

E 有 一 个 方便 的 取 值 范围 ( -1 到 +1 ); 

m 其 取 反 (余弦 距离 ) 易于 计算 (1 — 余弦 相似 度 ); 

m 其 取 反 (余弦 距离 ) 有 界 (0 到 +2 )。 

然而 ， 与 欧 几 里 得 距离 相 比 ， 余 弦 距 离 有 一 个 缺点 : 它 不 是 真正 的 距离 度量 ， 因 为 此 时 三 
角形 不 等 式 并 不 成 立 。 这 意味 着 如 果 “red” 词 向 量 与 “car" 词 向 量 的 余弦 距离 为 0.5, 与 “apple” 
词 向 量 的 余弦 距离 为 03， 则 “apple” 和 “car” 的 距离 可 能 远 远 超过 0.8。 当 想 用 余弦 距离 来 
证 明 向 量 的 一 些 性 质 时 ， 三 角 不 等 式 是 很 重要 的 。 当 然 ， 在 实际 的 NLP 问题 中 很 少 会 出 现 这 
种 情况 。 


3. 曼哈顿 距离 


曼哈顿 距离 也 称 为 出 租车 距离 或 LI 范 数 。 之 所 以 称 为 出 租车 距离 ， 因 为 如 果 这 些 向 量 的 坐 
标 与 街道 网 格 对 齐 并 且 它 们 都 是 二 维 向 量 的 话 , 那么 该 距离 表示 出 租车 从 一 个 向 量 到 达 另 一 个 向 
量 需 要 行驶 的 距离 。 这 个 距离 也 称 为 L1 范 数 。 

曼哈顿 距离 计算 起 来 非常 简单 : 计算 所 有 维度 的 绝对 距离 的 和 。 使 用 我 们 前 面 虚构 的 杂志 所 
量 ， 曼 哈 顿 距 离 将 是 ; 


>>> Vector tc = np.array([1, 0] 
>>> vector_wired = np.array([5, 6] 














































































































见 维基 百科 文章 “Cosine similarity”， 它 链接 到 真实 距离 度量 的 规则 。 
百科 文章 “Taxicab geometry”. 
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>>> np.abs (vector tc - 
10 





附录 C 向 量 和 矩阵 ( 线性 代数 基础 ) 


vector wired) .sum() 





如 果 在 计算 曼哈顿 距离 之 前 对 向 量 进行 了 归 一 化 ， 则 计算 的 距离 会 有 很 大 差异 : 


>>> normalized_tc = vector tc / np.linalg.norm(vector_tc) 


>>> normalized wired = 


vector_wired / np.linalg.norm(vector_wired) 


>>> np.abs (normalized tc - normalized_wired) .sum() 


:20 








我 们 可 能 希望 这 个 距离 度量 限定 在 一 定 的 范围 内 ， 如 0 ~2, 但 它 并 不 会 如 此 。 与 欧 几 里 得 
距离 一 样 ， 曼哈顿 距离 是 一 个 真实 度量 ,因此 它 遵 从 三 角 不 等 式 , 并 且 可 以 用 于 依赖 真实 距离 度 
量 的 数学 证 明 中 。 但 是 与 归 一 化 向 量 的 欧 几 里 得 距离 不 同 , 我 们 不 能 指望 归 一 化 向 量 之 间 的 曼 哈 








顿 距离 保持 在 一 个 理想 的 范围 




















内 ， 如 0~2。 即 使 已 经 把 向 量 全 部 归 一 化 为 长 度 为 1 的 向 量 ， 曼 





哈 顿 距离 的 最 大 长 度 也 会 随 着 维 数 的 增加 而 增长 。 对 于 归 一 化 的 二 维 向 量 , 任意 两 个 向 量 之 间 的 
最 大 曼哈顿 距离 约 为 2.82〈 V8 )。 对 于 三 维 向量 ， 这 个 值 约 为 3.46( V12 )。 大 家 能 猜 出 或 计算 


出 四 维 向 量 所 对 应 的 值 吗 ? 


OUD UVUUUOUUUUUU 


























许多 自然 语言 处 理 都 涉及 机 器 学 习 ， 所 以 理解 机 带 学 习 的 一 些 基 本 工具 和 技术 是 有 益处 的 。 
有 些 工 具 已 经 在 前 儿童 中 讨论 过 ， 有 些 还 没有 ， 但 这 里 我 们 会 讨论 所 有 这 些 工具 。 








D1 数据 选择 和 避免 偏见 


数据 选择 和 特征 工程 会 带 来 偏见 的 风险 ( 用 人 类 的 话 来 说 )。 一旦 我 们 把 自己 的 偏见 融入 算 
法 中 , 通过 选择 一 组 特定 的 特征 ,模型 就 会 适应 这 些 偏见 并 产生 带 有 偏差 的 结果 。 如 果 我 们 足够 
幸运 能 在 投入 生产 之 前 发 现 这 种 偏见 ， 那么 也 需要 投入 大 量 的 工作 来 消除 这 种 偏见 。 例 如 ， 必 须 
重新 构建 和 重新 训练 整个 流水 线 ， 以 便 能 够 充分 利用 分 词 器 的 新 词汇 表 。 我 们 必须 重新 开始 。 

一 个 例子 是 著名 的 Word2vec 模型 的 数据 和 特征 选择 。Word2vec 是 针对 大 量 的 新 闻 报道 进行 
训练 的 ， 从 这 个 语料库 中 选择 了 大 约 100 万 个 n-gram 作为 这 个 模型 的 词汇 表 ( 特征 )。 它 产生 了 
一 个 使 数据 科学 家 和 语言 学 家 兴奋 的 模型 , 后 者 能 够 对 词 向 量 ( 如 “king - man + woman = queen” ) 
进行 数学 运算 。 但 随 着 研究 的 深入 ， 在 模型 中 也 出 现 了 更 多 有 问题 的 关系 。 

例如 ， 对 于 “医生 — 父亲 + 母亲 = 护士 ”这 个 表达 式 ,“ 护 士 ”的 答案 并 不 是 人 们 希望 
的 无 偏见 和 合乎 逻辑 的 结果 。 人 性别 偏见 在 不 经 意 间 被 训练 到 模型 中 。 类 似 的 种 族 、 宗 教 甚至 地 理 
区 域 偏见 在 原始 的 Word2vec 模型 中 普遍 存在 。 谷 歌 公 司 的 研究 人 员 无 意 制造 这 些 偏见 ， 偏 见 存 
在 于 数据 中 ， 即 他 们 训练 Word2vec 使 用 的 谷歌 新 闻 语 料 库 中 词 使 用 统计 的 数据 。 

许多 新 闻 报道 只 是 带 有 文化 偏见 ， 因 为 它们 是 由 记者 撰写 的 ， 目 的 是 让 读者 开心 。 这 些 记 
者 描写 的 是 一 个 存在 制度 偏见 和 现实 生活 中 人 们 对 待 事件 的 偏见 的 世界 。 谷 歌 新 闻 中 的 词 使 用 
统计 数据 仅仅 反映 的 是 , 在 母亲 当中 当 护士 的 数目 要 比 当 医生 的 多 得 多 ， 同 时 在 父亲 当中 当 医 
生 的 数目 比 当 护士 的 多 得 多 。Word2vec 模型 只 是 为 我 们 提供 了 一 个 窗口 , 让 我 们 了 解 我 们 创建 
的 世界 。 

幸运 的 是 ， 像 Word2vec 这 样 的 模型 不 需要 标记 训练 数据 。 因 此 ， 我 们 可 以 自由 选择 任何 喜 
欢 的 文本 来 训练 模型 。 我 们 可 以 选择 一 个 更 平衡 的 、 更 能 代表 大 家 希望 模型 做 出 的 信念 和 推理 的 
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数据 集 。 当 其 他 人 躲 在 算法 背后 说 他 们 只 是 按照 模型 做 事 时 ,我们 可 以 与 他 们 分 享 自己 的 数据 集 ， 
这 些 数据 集 更 公平 地 代表 了 一 个 社会 ， 在 这 个 社会 里 ， 我 们 渴望 为 每 个 人 提供 平等 的 机 会 。 

当 训 练 和 测试 模型 时 , 大 家 可 以 依靠 自己 天 生 的 公正 感 来 帮助 决定 一 个 模型 何 时 可 以 做 出 影 
响 用 户 生活 的 预测 。 如 果 得 到 的 模型 以 我 们 希望 的 方式 对 待 所 有 用 户 , 那么 我 们 可 以 在 晚上 睡 个 
好 觉 。 它 还 可 以 帮助 密切 关注 那些 与 大 家 不 同 的 用 户 的 需求 , 特别 是 那些 通常 处 于 社会 不 利 地 位 
的 用 户 。 如 果 需 要 更 正式 的 理由 来 证 明 自 己 的 行为 , 大 家 还 可 以 学 习 更 多 关于 统计 学 、 哲 学 、 伦 
理学 、 心 理学 、 行 为 经 济 学 和 人 类 学 的 知识 ， 来 增强 大 家 在 本 书 中 学 到 的 计算 机 科学 技能 。 

作为 一 名 自然 语言 处 理 实践 者 和 机 需 学 习 工 程 师 ， 大 家 有 机 会 训练 出 比 人 类 做 得 更 好 的 机 
Fito 老板 和 同事 不 会 告诉 大 家 应 该 在 训练 集中 添加 或 删除 哪些 文本 , 大 家 自己 有 能 力 影响 塑造 整 
体 社区 和 社会 的 机 器 的 行为 。 

我 们 已 经 为 大 家 提供 了 一 些 关 于 如 何 组 装 一 个 带 有 更 少 偏见 和 更 公平 的 数据 集 的 想法 。 现 
在 ,我 们 将 展示 如 何 使 得 到 的 模型 与 无 偏见 数据 相 拟 合 ， 以 便 它们 在 现实 世界 中 精确 和 有 用 。 


















































D2 ”模型 拟 合 程度 


对 于 所 有 机 器 学 习 模型 ， 一 个 主要 的 挑战 是 克服 模型 过 度 优异 的 表现 。 什 么 是 “过 度 优异 ” 
呢 ? 在 处 理 所 有 模型 中 的 样本 数据 时 , 给 定 的 算法 都 可 以 很 好 地 在 给 定数 据 集中 找到 模式 。 但 是 
考虑 到 我 们 已 经 知道 训练 集中 所 有 给 定 样本 的 标签 〈 如果 不 知道 其 标签 表明 它 不 在 训练 集中 )， 
因此 算法 在 训练 样本 的 上 述 预 测 结果 不 会 特别 有 用 。 我 们 真正 的 目的 是 利用 这 些 训练 样本 来 构建 
一 个 有 泛 化 能 力 的 模型 ， 能 够 为 一 个 新 样本 打上 正确 标签 。 尽 管 该 样本 与 训练 集 的 样本 类 似 , 但 
是 它 是 训练 集 以 外 的 样本 。 在 训练 集 之 外 新 样本 上 的 预测 性 能 就 是 我 们 想 优化 的 目标 。 

我 们 称 能 够 完美 描述 ( 并 预测 ) 训练 样本 的 模型 “过 拟 合 ”( overfit ) ( 如 图 D-1 所 示 )。 这 
样 的 模型 将 很 难 或 没有 能 力 描述 新 数据 。 它 不 是 一 个 通用 的 模型 ， 当 给 出 一 个 不 在 训练 集中 的 样 
本 时 ， 很 难 相 信 它 会 做 得 很 好 。 













































































。 垃圾 消息 
*e e . 


正 向 词 数 





es ee "e, 
非 垃 圾 消息 "。 





停 用 词 数目 
图 D-1 训练 样本 上 的 过 拟 合 现象 


相反 ， 如 果 我 们 的 模型 在 训练 样本 上 做 出 了 许多 错误 的 预测 ， 并 且 在 新 样本 上 也 做 得 很 差 ， 
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WARE “RWE” Cunderfit ) ( 如 图 D-2 所 示 )。 在 现实 世界 中 ， 这 两 种 模型 都 对 预测 作用 不 大 。 
因此 , 下 面 看 看 哪些 技术 能 够 检测 出 上 述 两 种 拟 合 问题 , 更 重要 的 是 , 我们 还 会 给 出 一 些 避 免 上 
述 问题 的 方法 。 


4 
。 垃圾 消息 
m 和 
x 。 oes 
is 
E . z do o ee, 
B| 一 pe 
非 垃 级 消息 “。 





停 用 词 数 目 
图 D-2 ”训练 样本 上 的 欠 拟 合 现象 





0.3 数据 集 划 分 


在 机 需 学 习 实 践 中 ， 如 果 数 据 是 黄金 ， 那 么 标注 数据 就 是 raritanium ( 某 游戏 里 的 一 种 珍贵 
资源 )。 我 们 的 第 一 直觉 可 能 是 获取 带 标 注 数据 并 把 它们 全 部 传递 给 模型 。 更 多 的 训练 数据 会 产 
生 更 有 弹性 的 模型 , 对 吧 ? 但 这 使 我 们 没有 办 法 测试 这 个 模型 ， 只 能 心中 希望 它 在 现实 世界 中 能 
产生 好 的 结果 。 这 显然 是 不 切实 际 的 。 解 决 方案 是 将 带 标注 的 数据 拆 分 为 两 个 数据 集 ， 有 时 是 3 
个 数据 集 : 一 个 训练 集 、 一 个 验证 集 ， 在 某 些 情况 下 还 有 一 个 测试 集 。 

训练 集 是 显而易见 的 。 在 一 轮训 练 中 ， 验 证 集 是 我 们 保留 的 对 模型 隐藏 的 一 小 部 分 带 标 
注 数 据 。 在 验证 集 上 获得 良好 性 能 是 验证 经 过 训练 的 模型 在 训练 集 之 外 的 新 数据 上 表现 良好 
的 第 一 步 。 大 家 经 稼 会 看 到 将 一 个 给 定 的 标注 数据 集 按照 训练 与 验证 比 80%/20% BK 70%/30% 
进行 划分 。 测 试 集 类 似 于 验证 集 ， 也 是 带 标注 训练 数据 的 子 集 ， 用 于 测试 模型 并 度量 性 能 。 
但 是 这 个 测试 集 与 验证 集 有 什么 不 同 呢 ? 在 组 成 上 ， 它 们 其 实 没 有 任何 不 同 ， 区 别 在 于 使 用 
它们 的 方法 。 

在 训练 集 上 对 模型 进行 训练 时 ,会 有 若干 次 欠 代 , 迭代 过 程 中 会 有 不 同 的 超 参 数 。 我 们 选择 
的 最 终 模 型 将 是 在 验证 集 上 执行 得 最 好 的 模型 。 但 是 这 里 有 一 个 问题 ， 我 们 如 何 知道 自己 没有 
优化 一 个 仅仅 是 高 度 拟 合 验证 集 的 模型 ? 我 们 没有 办 法 验证 该 模型 在 其 他 数据 上 的 性 能 是 否 
良好 。 这 就 是 我 们 的 老板 或 论文 的 读者 最 感 兴趣 的 地 方 一 一 该 模型 在 他 们 的 数据 上 的 效果 到 底 
如 何 ? 

因此 ， 如 果 有 足够 的 数据 ， 需 要 将 标注 数据 集 的 第 三 部 分 作为 测试 集 。 这 将 使 我 们 的 读者 
(或 老板 ) 更 有 信心 ,确信 模型 在 训练 和 调 优 过 程 中 在 从 未 看 到 的 数据 上 也 可 以 获得 很 好 的 效果 。 
一 旦 根据 验证 集 性 能 选择 了 经 过 训练 的 模型 ， 并且 不 再 训练 或 调整 模型 , 那么 就 可 以 对 测试 集中 
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的 每 个 样本 进行 预测 ( 推理 )。 假 如 模型 在 第 三 部 分 数据 上 表现 良好 , 那么 它 就 有 不 错 的 泛 化 性 。 

为 了 得 到 这 种 具有 高 可 信 度 的 模型 验证 , 大 家 经 常会 看 到 数据 集 按 照 60%/20%/20% 的 训练 /验证 / 

测试 比 进行 划分 的 情形 。 
提示 “在 对 数据 集 进行 训练 集 、 验 证 集 和 测试 集 的 划分 之 前 , 对 数据 集 进 行 重新 排序 是 非常 重要 的 。 
我 们 希望 每 个 数据 子 集 都 是 能 代表 “真实 世界 ”的 样本 ， 并 且 它 们 需要 与 期 望 看 到 的 每 个 标签 的 比 
大 致 相同 。 如 果 训练 集 有 25% 的 正 向 样本 和 75% 的 负 向 样本 , 那么 同样 也 希望 测试 集 和 验证 集 也 有 
25% 的 正 向 样本 和 75% 的 负 向 样本 。 如 果 原 始 数据 集 的 前 面 都 是 负 向 样本 ， 并 且 在 将 数据 集 划 分 为 
50%/50% 比 的 训练 集 /测试 集 前 没有 打 乱 数据 ， 那 么 在 训练 集中 将 得 到 100% 的 负 向 样本 ， 而 在 测试 
集中 将 得 到 50% 的 负 向 样本 。 这 种 情况 下 ,模型 永远 不 能 从 数据 集中 的 正 向 样本 中 学 习 。 








DA 交叉 拟 合 训练 


另 一 个 划分 训练 集 / 测 试 集 的 方法 是 交叉 验证 或 者 磊 折 交叉 验证 (如 图 D-3 所 示 )。 交 叉 验 证 
背后 的 概念 和 我 们 刚 讨论 过 的 数据 划分 非常 相似 ， 但 是 它 允 许 使 用 所 有 的 带 标记 数据 集 进行 训 
练 。 这 个 过 程 将 训练 集 划分 为 上 等 分 ， 或 者 说 左 折 。 然 后 通过 将 大- 1 份 数 据 作为 训练 集训 练 模 
型 并 在 第 份 数 据 上 进行 验证 。 之 后 将 第 一 次 尝试 中 用 作 训 练 的 -1 份 数 据 中 的 一 份 数 据 作 为 
验证 集 ， 剩 下 的 -1 份 数据 成 为 新 训练 集 ， 进 行 重新 训练 。 

7 个 子 样本 集 (k=7) 
6 个 子 样本 集 
第 1 轮训 练 训练 训练 训练 训练 训练 训练 验证 





















































第 ?2 轮训 练 训练 

















训练 验证 训练 训练 





第 3 轮训 练 训练 








第 6 轮训 练 验证 














图 D-3 k 折 交叉 验证 


该 技术 对 于 分 析 模 型 的 结构 和 寻找 对 各 个 验证 数据 性 能 表现 良好 的 超 参数 具有 重要 价值 ,一 
旦 选择 了 超 参数 , 还 需要 选择 表现 最 好 的 经 过 训练 的 模型 ,因此 很 容易 受到 上 一 节 所 表述 的 偏见 
的 影响 ， 因 此 ， 在 此 过 程 中 仍然 建议 保留 一 份 测试 集 。 

这 种 方法 还 提供 了 关于 模型 可 靠 性 的 一 些 新 信息 。 我 们 可 以 计算 一 个 P 值 , 表示 模型 发 现 的 
输入 特征 和 输出 预测 之 间 的 关系 的 可 能 性 在 统计 上 是 显著 的 ， 而 不 是 随机 选择 的 结果 。 如 果 训练 
集 确实 是 真实 世界 的 代表 性 样本 ， 那 么 这 将 是 一 个 非常 重要 的 新 信息 。 
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这 种 对 模型 有 额外 信心 的 代价 是 ， 需 要 磊 倍 的 训练 时 间 来 进行 上 折 的 交叉 验证 。 所 以 ， 如 果 
想 要 得 到 关于 问题 的 90% 的 答案 , 通常 可 以 简单 地 做 1 折 交 叉 验 证 。 这 个 验证 方法 与 我 们 之 前 做 
的 训练 集 / 验 证 集 划 分 方法 完全 相同 。 我 们 不 会 对 模型 这 个 对 真实 世界 的 动态 描述 的 可 靠 性 有 
100% 的 信心 ， 但 是 如 果 它 在 测试 集中 表现 良好 ， 也 可 以 非常 自信 地 认为 它 是 预测 目标 变量 的 有 
用 模型 。 所 以 通过 这 种 实用 方法 得 到 的 机 器 学 习 模 型 对 大 多 数 商 业 应 用 来 说 都 是 有 意义 的 。 





























0.5 ”抑制 模型 


JE model. fit O, 梯度 下 降 过 分 热衷 于 追求 降低 模型 中 可 能 出 现 的 误差 。 这 可 能 导致 过 
拟 合 ， 即 学 到 的 模型 在 训练 集 上 效果 很 好 , 但 是 在 新 的 未 见 样 本 集 ( 测试 集 ) 上 却 效果 很 差 。 
此 ,我们 可 能 希望 “保留 ”对 模型 的 控制 。 以 下 是 3 种 方法 : 

m 正则 化 ; 

图 ”随机 dropout; 

m 批 归 一 化 。 






































D.5.1 正则 化 


在 所 有 机 器 学 习 模 型 中 ， 最 终 都 会 出 现 过 拟 合 。 幸 运 的 是 ， 有 几 种 工具 可 以 解决 这 个 问题 。 
第 一 个 是 正则 化 , 它 是 对 每 个 训练 步骤 的 学 习 参 数 的 惩罚 , 它 通常 但 不 总 是 参数 本 身 的 一 个 因子 。 
其 中 ，L1 范 数 和 L2 范 数 是 最 常见 的 做 法 。 

L1 正则 化 : 





















































n 
+49 |w; | 
i=l 


LI 是 所 有 参数 (权重 ) 的 绝对 值 与 某 个 4 BR) 乘积 的 和 , 通常 是 0 到 1 之 间 的 一 个 小 
浮 点 数 。 这 个 和 应 用 于 权重 的 更 新 一 一 其 思想 是 ， 较 大 的 权重 会 产生 较 大 的 惩罚 ， 因 此 鼓励 模型 
使 用 更 多 的 、 均 匀 的 权重 …… 

L2 正则 化 : 























n 
+42 wi 
i=l 


类 似 地 ，L2 是 一 种 权重 惩罚 ， 但 定义 略 有 不 同 。 这 种 情况 下 ， 它 是 权重 的 平方 与 某 个 1 R 
积 的 和 ， 这 个 4 值 是 一 个 要 在 训练 前 选择 的 单独 超 参 数 。 

















D.5.2 dropout 
在 神经 网 络 中 ，dropout 是 另 一 个 解决 过 拟 合 的 办 法 一 一 乍 











H 











看 似乎 很 神奇 。dropout 的 概念 
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是 , 在 神经 网 络 的 任何 一 层 , 我 们 都 会 在 训练 的 时 候 , 按 一 定 比例 关闭 通过 这 一 层 的 信号 。 注意 ， 
这 只 发 生 在 训练 期 间 ， 而 不 是 推理 期 间 。 在 所 有 训练 过 程 中 ,网 络 层 中 一 部 分 神经 元 子 集 都 会 被 
“忽略 ”， 这 些 输出 值 被 显 式 地 设置 为 零 。 因 为 它们 对 预测 结果 没有 输入 ,所 以 在 反 向 传播 步骤 中 
不 会 进行 权重 更 新 。 在 下 一 个 训练 步骤 中 ， 将 选择 层 中 不 同 权 重 的 子 集 ， 并 将 其 他 权重 归 零 。 

一 个 在 任何 时 间 都 有 20% 处 于 关闭 状态 的 大 脑 的 网 络 该 如 何 学 习 呢 ? 其 思想 是 , 没有 一 个 特 
定 的 权重 路 径 可 以 完全 定义 数据 的 特定 属性 。 该 模型 必须 泛 化 其 内 部 结构 ， 以 便 该 模型 通过 神经 
元 的 多 条 路 径 都 能 够 处 理 数 据 。 

被 关闭 的 信号 的 百分比 被 定义 为 超 参数 , 因为 它 是 一 个 介 于 0 和 ]1 之 间 的 浮 点 数 。 在 实践 中 ， 
从 0.1 到 0.5 的 dropout 通常 是 最 优 的 ， 当 然 ， 这 是 依赖 模型 的 。 在 推理 过 程 中 ，droponut SRA 
略 ， 从 而 充分 利用 训练 后 的 权 值 对 新 数据 进行 处 理 。 

Keras 提供 了 一 种 非常 简单 的 实现 方法 ， 可 以 在 本 书 的 示例 和 代码 清单 D-1 中 看 到 。 



































代码 清单 D-1 Keras 中 的 dropout 层 会 减少 过 拟 合 





>>> from keras.models import Sequential 
>>> from keras.layers import Dropout, LSTM, Flatten, Dense 




















>>> maxlen = 100 
>>> embedding_dims = 300 
>>> model = Sequential () 


>>> num_neurons = 20 a nee 的 超 参数 


>>> model.add (LSTM (num neurons, return sequences=True, 
input_shape=(maxlen, embedding dims))) 











>>> model.add (Dropout (.2)) 

这 里 的 .2 是 超 参 数 ， 因 此 LSTM 
>>> model.add (Flatten ()) 层 中 20% 的 输出 会 被 置 为 0， 从 
>>> model.add(Dense(1, activation='sigmoid')) | 而 被 忽略 


D.5.3 批 归 一 化 


神经 网 络 中 一 个 称 为 批 归 一 化 的 新 概念 可 以 帮助 对 模型 进行 标准 化 和 泛 化 , 批 归 一 化 的 思想 
E, 与 输入 数据 非常 相似 , 每 个 网 络 层 的 输出 应 该 归 一 化 为 0 到 1 之 间 的 值 。 关于 如 何 、 为什么、 
什么 时 候 这 样 做 是 有 益 的 ,以 及 在 什么 条 件 下 应 该 使 用 它 , 仍然 存在 一 些 争 议 。 我 们 希望 大 家 自 
己 去 对 这 个 研究 方向 进行 探索 。 

但 是 Keras 的 BatchNormalization 层 提供 了 一 个 简单 的 实现 方法 , 如 代码 清单 D-2 所 示 。 








代码 清单 D-2” 归 一 化 BatchNormalization 





>>> from keras.models import Sequential 
>>> from keras.layers import Activation, Dropout, LSTM, Flatten, Dense 
>>> from keras.layers.normalization import BatchNormalization 


>>> model = Sequential () 
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>>> model.add(Dense(64, input_dim=14) ) 

>>> model.add(BatchNormalization() ) 

>>> model.add(Activation('sigmoid') ) 

>>> model.add(Dense(64, input_dim=14) ) 

>>> model.add(BatchNormalization() ) 

>>> model.add(Activation('sigmoid') ) 

>>> model.add (Dense (1, activation='sigmoid') ) 


D6 非 均衡 训练 集 


机 器 学 习 模型 的 好 坏 取决 于 提供 给 它们 的 数据 。 只 有 当 样 本 中 涵盖 了 和 希望 在 预测 阶段 的 所 有 
情况 时 ,拥有 大 量 的 数据 才 有 帮助 ， 并且 数据 集 涵盖 每 种 情况 仅仅 一 次 是 不 够 的 。 想 象 一 下 我 们 
正 试图 预测 一 副 图 像 到 底 是 一 只 狗 还 是 一 只 猫 。 这 时 我 们 手 里 有 一 个 训练 集 ， 里 面包 含 20 000 
张 猫 的 照片 , 但 是 狗 的 照片 只 有 200 张 。 如 果 要 在 这 个 数据 集中 训练 一 个 模型 ， 那么 这 个 模型 很 
可 能 只 是 简单 地 学 会 将 任何 给 定 的 图 像 都 预测 为 一 只 猫 , 而 不 管 输入 是 什么 。 从 模型 的 角度 来 说 ， 
这 个 结果 还 可 以 接受 ， 对 不 对 ? 我 的 意思 是 ， 对 99% 的 训练 样本 的 预测 结果 都 是 正确 的 。 当 然 ， 
这 个 观点 实际 完全 站 不 住 脚 ， 这 个 模型 毫 无 价值 。 但 是 ,完全 超出 了 特定 模型 的 范围 之 外 , 造成 
这 种 失败 的 最 可 能 原因 是 非 均衡 训练 集 

模型 可 能 会 非常 关注 训练 集 ， 其 原因 很 简单 来 自 标 记 数 据 中 过 采样 类 的 信号 会 压倒 来 自从 
采样 类 的 信号 。 权 重 将 更 经 常 地 由 主 类 信号 的 误差 进行 更 新 ， 而 来 自 小 类 的 信号 将 被 忽视 。 获 得 
每 个 类 的 绝对 均匀 表示 并 不 重要 ,因为 模型 自己 能 够 克服 一 些 噪 声 。 这 里 的 目标 只 是 让 类 的 比例 
达到 均衡 水 平 。 

与 任何 机 器 学 习 任务 一 样 ， 第 一 步 是 长 时 间 、 仔 细 地 查看 数据 ， 了 解 一 些 细节 ， 并 对 数据 实 
际 表示 的 内 容 进行 一 些 粗略 的 统计 。 不 仅 要 知道 有 多 少数 据 ， 还 要 知道 有 多 少 种 类 的 数据 。 

那么 ， 如 果 事 情 从 一 开始 就 没有 特别 之 处 ， 大 家 会 怎么 做 呢 ?” 如 果 目 标 是 使 类 的 表示 均匀 ( 确 
实 如 此 )， 则 有 3 个 主要 方法 可 供 选 择 : 过 采样 、 欠 采 样 和 数据 增强 ， 

















































































































D.6.1 过 采样 


过 采样 是 一 种 重复 采样 来 自 一 个 或 多 个 欠 表 示 类 的 样本 的 技术 。 我 们 以 先前 的 狗 / 猫 分 类 示 
例 为 例 (只 有 200 只 狗 ， 有 20 000 只 猫 )。 我 们 可 以 简单 地 重复 100 次 已 有 的 200 张 狗 的 图 像 ， 
最 终 得 到 40 000 个 样本 ， 其 中 一 半 是 狗 ， 一 半 是 猫 。 

这 是 一 个 极端 的 例子 ， 因 此 会 导致 自身 固有 的 问题 。 这 个 网 络 很 可 能 会 很 好 地 识别 出 这 200 
只 特定 的 狗 , 而 不 能 很 好 地 推广 到 其 他 不 在 训练 集中 的 狗 。 但是, 在 不 那么 极端 不 平衡 的 情况 下 ， 
过 采样 技术 肯定 有 助 于 平衡 训练 集 。 




















D.6.2 RR 
欠 采 样 是 同一 枚 硬币 的 反面 。 在 这 里 ， 就 是 从 过 度 表示 的 类 中 删除 部 分 样本 。 在 上 面 的 猫 / 
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狗 示 例 中 ， 我 们 将 随机 删除 19 800 张 猫 的 图 片 ， 这 样 就 会 剩 下 400 个 样本 ， 其 中 一 半 是 狗 ， 一 
半 是 猫 。 当 然 ， 这样 做 本 身 也 有 一 个 突出 的 问题 ， 就 是 我 们 抛弃 了 绝 大 多 数 的 数据 ， 而 只 在 一 个 
不 那么 宽泛 的 数据 基础 上 进行 研究 。 上 述 例子 中 这 样 的 极端 做 法 并 不 理想 , 但 是 如 果 欠 表示 类 本 
身 包 含 大 量 的 样本 , 那么 上 述 极端 做 法 可 能 是 一 个 很 好 的 解决 方案 。 当 然 , 拥有 这 么 多 数据 绝对 
是 太 和 奢侈 了 。 








D.6.3 ”数据 增强 


数据 增强 有 点 儿 环 手 , 但 在 适当 的 情况 下 它 可 以 给 我 们 带 来 帮助 。 增 强 的 意思 是 生成 新 的 数 
据 , 或 者 从 现 有 数据 的 扰动 中 生成 , 或 者 重新 生成 。AffNIST 就 是 这 样 一 个 例子 。 著 名 的 MNIST 
数据 集 由 一 组 手写 的 0 ~ 9 数字 组 成 (如 图 D-4 所 示 )。AffNIST 在 保留 原始 标签 的 同时 ， 以 各 种 
方式 对 每 个 数字 进行 倾斜 、 旋 转 和 缩放 。 





























图 D-4 最 左 侧 列 中 的 条 目 是 原始 MNIST 中 的 样本 ， 其 他 列 都 是 经 仿 射 
转换 后 包含 在 affNIST 中 的 数据 ( 图 片 经 “affNIST” 授 权 ) 








这 种 特别 的 做 法 的 目的 并 不 是 平衡 训练 集 , 而 是 使 像 卷 积 神经 网 络 一 样 的 网 络 对 以 其 他 方式 
编写 的 新 数据 更 具 弹 性 ， 但 这 里 数据 增强 的 概念 仍然 适用 。 

不 过 , 大 家 必须 小 心 , 添加 不 能 真正 代表 待 建 模 型 数据 的 数据 有 可 能 次 大 于 利 。 假设 数据 集 
是 之 前 的 200 只 狗 和 20 000 只 猫 组 成 的 图 片 集 。 我 们 进一步 假设 这 些 图 像 都 是 在 理想 条 件 下 拍 
摄 的 高 分 辨 率 彩色 图 像 。 现 在 ,给 19000 名 幼儿 园 教师 一 盒 蜡笔 并 不 一 定 能 得 到 想 要 的 增强 数 
据 。 因此 , 考虑 一 下 增强 的 数据 会 对 模型 产生 什么 样 的 影响 ,答案 并 不 是 在 任何 时 候 都 清晰 无 比 ， 
所 以 如 果 一 定 要 沿 着 这 条 路 径 走 下 去 的 话 , 在 验证 模型 时 请 记 住 模型 的 影响 这 一 点 , 并 努力 围绕 
其 边缘 进行 测试 ， 以 确保 没有 无 意 中 引 入 意外 的 行为 。 

最 后 ， 再 说 一 件 可 能 价值 最 小 的 事情 ， 但 这 的 确 是 事实 : 如果 数据 集 “ 不 完整 "， 那 么 首先 
应 该 考虑 回 到 原来 的 数据 源 中 寻找 额外 的 数据 。 这 种 做 法 并 不 总 是 可 行 , 但 至 少 应 该 把 它 当 作 一 
种 选择 。 
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0.7 性 能 指标 


任何 机 器 学 习 流水 线 中 最 重要 的 部 分 都 是 性 能 指标 。 如 果 不 知道 学 到 的 机 器 学 习 模 型 运行 得 
有 多 好 ， 就 无 法 让 它 变 得 更 好 。 当 启动 机 器 学 习 流水 线 时 ， 要 做 的 第 一 件 事 是 在 任何 sklearn 机 
器 学 习 模型 上 设置 一 个 性 能 度量 方法 ， 例 如 “.score0”。 然 后 我 们 构建 一 个 完全 随机 的 分 类 /回归 
流水 线 ， 并 在 最 后 计算 性 能 分 数 。 这 使 我 们 能 够 对 流水 线 进 行 增 量 式 改 进 ， 从 而 逐步 提高 分 数 ， 
以 便 更 接近 最 终 的 目标 。 这 也 是 让 老板 和 同事 确信 大 家 走 在 正确 的 轨道 上 的 好 方法 。 














D.7.1 分 类 的 衡量 指标 


对 分 类 器 而 言 ， 我 们 希望 它 做 对 两 件 事 : 一 是 用 类 标签 标记 真正 属于 该 类 的 对 象 , 二 是 不 用 
这 个 标签 去 标记 不 属于 此 类 的 对 象 。 这 两 件 事 对 应 得 到 的 正确 计数 值 分 别称 为 真 阳 〈true positive ) 
和 真 阴 (true negative )。 如 果 有 一 个 numpy 数组 包含 模型 分 类 或 预测 的 所 有 结果 , 那么 就 可 以 计 
算出 正确 的 预测 结果 ， 如 代码 清单 D-3 所 示 。 














代码 清单 D-3 ”计算 模型 得 到 的 正确 结果 





y_true 是 存储 true 正确 类 标签 的 numpy y_pred 是 存储 模型 预测 出 的 类 


























数组 。 通 常 这 些 都 是 由 人 决定 的 标签 (0 或 1) 的 numpy 数组 

>>> y_true = np.array([0, 0, 0, 1, 1, 1, 1, 1, 1, 1]) 
>>> y préd = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0, OF) 
>>> true_positives = ((y_pred == y_true) & (y_pred == 1)).sum() 
Sf. ee ee true_positives 是 模型 在 正 向 类 ( 正确 的 类 标签 为 1 ) 

上 预测 正确 〈 预测 的 类 标签 也 为 1 ) 的 样本 数目 
>>> true_negatives = ((y_pred == y_true) & (y_pred == 0)).sum() 
>>> t Či 3 ae Seg pa 
peepee true_negatives 是 在 负 向 类 (正确 的 类 标签 为 0 ) 

上 预测 正确 ( 预测 的 类 标签 也 为 0 ) 的 样本 数目 


通常 而 言 ， 对 模型 预测 错误 的 计数 也 很 重要 ， 如 代码 清单 D-4 所 示 。 


代码 清单 D-4 计算 模型 得 到 的 错误 结果 











>>> false positives = ((y_pred != y true) & (y_pred == 1)).sum() 

>>> false_positives < 

3 

>>> false_negatives = ((y_pred != y_ true) & (y_pred == 0)).sum() 

>>> false_negatives < 

1 false_negatives 是 被 模型 错误 地 标记 为 负 false_positives 是 被 模型 错误 地 标记 为 正 
向 类 的 负 类 样本 数目 它们 的 类 标签 应 该 。。” 向 类 的 负 向 类 样本 数目 ( 它们 的 类 标签 应 
为 1 时 却 预测 为 0) ER 





AY, X4 个 数 合并 成 一 个 4 x 4 ERE, PRIRA AEE, AIE D-5 给 出 了 混 
A E E p (SAE. 
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代码 清单 D-5 混淆 矩阵 





>>> confusion = [[true positives, false positives], 
ae [false negatives, true_negatives] ] 
>>> confusion 
[[4, 3], [1, 2]] 
>>> import pandas as pd 

>>> confusion = pd.DataFrame (confusion, columns=[1, 0], index=[1, 0]) 
>>> confusion.index.name = r'pred \ truth! 

>>> confusion 


T 0 
pred \ truth 
1 4 1 
0 3 2 


在 混淆 矩阵 中 , 我 们 希望 对 角 线 (左上 角 和 右 下 角 ) 上 的 数字 较 大 , 希望 对 角 线 外 的 数字 ( 左 
上 角 和 左下 角 ) 较 小 。 然 而 ， 正 向 类 和 负 向 类 的 顺序 是 任意 的 ， 所 以 有 时 可 能 会 看 到 这 个 表 的 数 
字 被 调换 了 位 置 。 请 始终 标记 好 混淆 矩阵 的 列 和 下 标 。 有 时 可 能 会 听 到 统计 学 家 把 这 个 矩阵 称 为 
分 类 器 列 联 表 ， 但 如 果 坚 持 使 用 “混淆 矩阵 ”这 个 名 字 的 话 ， 就 可 以 避免 混淆 。 

对 于 机 器 学 习 分 类 问题 , 有 两 种 有 用 的 方法 可 以 将 这 4 种 计数 值 中 的 一 些 指标 组 合成 一 个 性 
能 指标 : 正确 率 (precision) 和 召回 率 (recall) 信息 检 索 (搜索 引擎 ) 和 语义 搜索 就 是 此 分 类 
问题 的 例子 ， 因 为 那里 的 目标 是 将 文档 分 为 ( 和 输入 查询 ) 匹配 或 不 匹配 两 类 。 第 2 章 中 , 我 们 
学 习 过 词 干 还 原 和 词 形 归 并 如 何 能 够 提高 召回 率 ， 但 同时 降低 了 正确 率 。 

正确 率 度量 的 是 模型 在 检测 所 感 兴趣 类 的 所 有 对 象 ( 称 为 正 向 类 ) 的 能 力 ， 因 此 它 也 被 称 为 
正 向 预测 值 (positive predictive value )。 由 于 真 阳 是 预测 正确 的 正 向 类 样本 数目 ， 而 假 阳 是 错误 地 
标记 为 正 向 类 的 负 向 类 样本 数目 ， 因 此 可 以 按照 代码 清单 D-6 所 示 来 计算 正确 率 。 











代码 清单 D-6 正确 率 


>>> precision = true positives / (true positives + false positives) 
>>> precision 


Oso as 
上 述 例子 中 的 混淆 矩阵 给 出 了 约 57% 的 正确 率 ， 因 为 在 所 有 预测 为 正 向 类 的 样本 中 有 约 57% 
是 正确 的 。 


召回 率 和 正确 率 类 似 , 它 也 被 称 为 灵敏 度 、 真 阳 率 或 查 全 率 。 因 为 数据 集中 的 样本 总 数 是 真 
SH (true positive ) 和 假 阴 (false negative) 的 和 ， 所 以 可 以 计算 召回 率 ， 即 检测 到 的 预测 正确 的 
正 向 类 样本 占 所 有 样本 的 百分比 ， 代 码 如 代码 清单 D-7 所 示 。 


代码 清单 D-7 召回 率 


>>> recall = true positives / (true positives + false negatives) 
>>> recall 
0.8 


这 就 是 说 上 面 例子 中 得 到 的 模型 检测 到 了 数据 集中 80% 的 正 向 类 样本 。 
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D.7.2 回归 的 衡量 指标 


用 于 机 器 学 习 回 归 间 题 的 两 个 最 常见 的 性 能 评价 指标 是 均 方 根 误差 ( RMSE ) 和 皮尔 逊 相关 
系数 (R? )。 事实 证明, 分 类 问题 背后 实际 上 是 回归 问题 。 因此 ,如 果 类 标签 已 经 转换 为 数字 ( 就 
像 我 们 在 上 一 节 中 所 做 的 那样 )， 就 可 以 在 其 上 使 用 回归 度量 方法 。 下 面 的 代码 示例 将 复 用 上 
节 的 那些 预测 值 和 真实 值 。RMSE 对 于 大 多 数 问题 是 最 有 用 的 , 因为 它 给 出 的 是 预测 值 与 真实 值 
可 能 的 相差 程度 。RMSE 给 出 的 是 误差 的 标准 偏差 ， 如 代码 清单 D-8 所 示 。 


代码 清单 D-8 WAR (RMSE) 


>>> y_true = np.array([0, 0, 0, 1, 1, 1, 1, 1, 1, 1]) 
>>> y_pred = np.array([0, 0, 1, 1, 1, 1, 1, 0, 0, 0]) 
>>> rmse = np.sqrt((y_true - y_pred) ** 2) / len(y_true)) 
>>> rmse 

Os 6320.2..5 


皮尔 逊 相关 系数 是 回归 函数 的 另 一 个 常见 性 能 指标 。skleazn 模块 默认 将 其 作为 .score () 
函数 附加 到 大 多 数 模 型 上 。 如 果 大 家 不 清楚 这 些 指标 如 何 计算 的 话 , 那么 应 该 手动 计算 一 下 找 找 
感觉 。 相 关系 数 的 计算 参见 代码 清单 D-9。 


代码 清单 D-9 ”相关 系数 


>>> corr = pd.DataFrame([y_true, y_pred]).T.corr() 

>>> corr[0] [1] 

0 218\. 3+. 

>>> np.mean((y_pred - np.mean(y_pred)) * (y true - np.mean(y_true))) / 
np.std(y_pred) / np.std(y_true) 

















0’, 21:8). 2: 


由 此 可 见 我 们 的 样本 预测 值 与 真实 值 的 相关 度 只 有 28% 


0.8 专业 技巧 


一 旦 掌握 了 基本 知识 ， 那 么 下 面 这 些 简单 的 技巧 将 有 助 于 更 快 地 建立 良好 的 模型 ， 

使 用 数据 集中 的 一 个 小 的 随机 样本 子 集 来 发 现 流水 线 的 可 能 缺陷 ; . 

当 准 备 将 模型 部 署 到 生产 环境 中 时 ， 请 使 用 所 有 的 数据 来 训练 模型 ; 

首先 应 该 尝试 自己 最 了 解 的 方法 ， 这 个 技巧 也 适用 于 特征 提取 和 模型 本 身 ; 

在 低 维特 征 和 目标 上 使 用 散 点 图 和 散 点 和 矩阵， 以 确保 没有 遗漏 一 些 明显 的 模式 ; 

绘制 高 维 数据 作为 原始 图 像 ， 以 发 现 特征 的 转移 ; 

当 希 望 最 大 化 向 量 对 之 间 的 差异 时 ,可 以 尝试 对 高 维 数据 使 用 PCA (对 NLP 数据 使 用 LSA ); 
































D 时 序 训练 集 通 常会 随 着 时 间 的 推移 或 延迟 而 生成 。 在 隐藏 数据 源 的 Kagge 竞赛 中 ， 发 现 这 一 点 会 对 大 家 
有 所 帮助 ， 例 如 在 比赛 Santander Value Prediction competition 中 。 
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图 ” 当 希 望 在 低 维 空间 中 进行 回归 或 者 寻找 匹配 的 向 量 对 时 , 可 以 使 用 非 线 性 降 维 , 如 t-SNE; 
E 构建 一 个 sklearn .Pipeline 对 象 ， 以 提高 模型 和 特性 提取 器 的 可 维护 性 和 可 复 用 性 ; 
图 使 超 参数 的 调 优 实现 自动 化 , 这样 模型 就 可 以 了 解数 据 ， 大 家 就 可 以 花 时 间 学 习 机 咒 
学 习 。 

超 参 数 调 优 ，” 超 参 数 是 所 有 那些 确定 流水 线性 能 的 值 ， 包 括 模 型 类 型 及 其 配置 方式 等 。 超 参数 还 可 

以 是 神经 网 络 中 包含 的 神经 元 数 和 层 数 ,或 者 是 sklearn.linear _model.Rigdge 上 岭 回归 模型 中 

的 alpha 值 。 超 参数 还 包括 控制 所 有 和 预 处 理 步骤 的 值 ， 例 如 分 词类 型 、 所 有 忽略 的 词 列 表 、TF-IDF 
词汇 表 的 最 小 和 最 大 文档 频率 、 是 否 使 用 词 形 归并 、TF-IDF 归 一 化 方法 等 。 


超 参数 调 优 可 能 是 一 个 十 分 缓慢 的 过 程 , 因为 每 个 实验 都 需要 训练 和 验证 一 个 新 模型 。 因 此 ， 
在 搜索 范围 广泛 的 超 参数 时 , 我 们 需要 将 数据 集 减 小 到 具有 代表 性 的 最 小 样本 集 。 当 搜索 接近 满 
足 需求 的 最 终 模型 时 ， 可 以 增加 数据 集 的 大 小 ， 以 使 用 尽 可 能 多 的 所 需 数据 。 

优化 流水 线 的 超 参数 是 提高 模型 性 能 的 方法 。 实现 超 参 数 调 优 自动 化 可 以 节省 更 多 的 时 间 来 
阅读 本 书 这 样 的 书籍 , 或 者 可 视 化 和 分 析 最 后 的 结果 。 当 然 大 家 仍然 可 以 通过 直觉 设置 要 尝试 的 
超 参 数 范 围 来 指导 调 优 。 

提示 超 参 数 调 优 最 有 效 的 算法 是 ( 从 最 好 到 最 差 ): 

(1) 贝 叶 斯 搜索 ; 

(2) 遗传 算法 ; 

(3) 随机 搜索 ; 

(4) 多 分 辨 率 网 格 搜索 ; 

(5) 网 格 搜 索 。 

但 是 无 论 如 何 ， 在 大 家 进入 梦乡 时 工作 的 所 有 计算 机 搜索 算法 ， 都 比 手动 猜测 一 个 个 新 参数 好 。 
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如 果 想 快速 训练 或 使 用 NLP 流水 线 ， 那 么 带 有 GPU 的 服务 器 通常 可 以 用 于 加 速 。 当 
使 用 Keras (TensorElow 或 Theano), PyTorch 或 Caffe 等 框架 构建 模型 时 ，GPU 尤 
其 擅长 训练 深度 神经 网 络 。 这 些 计算 图 框架 可 以 充分 利用 为 GPU 构建 的 大 规模 并 行 乘法 
和 加 法 运算 。 

如 果 大 家 不 想 花 时 间 和 金钱 来 构建 自己 的 服务 器 ， 那 么 云 服 务 是 一 个 很 好 的 选择 。 但 
是 ， 用 GPU 构建 一 个 服务 器 的 速度 可 能 是 使 用 类 似 AWS (Amazon Web Services ) 服务 器 
的 两 倍 ， 而 在 一 个 类 似 AWS 实例 上 需要 花费 大 约 一 个 月 的 时 间 。 男 外 ,可 以 使 用 更 紧密 的 
耦合 方式 (更 高 的 带宽 ) 来 存储 更 多 的 数据 ,并 且 通 常 可 以 获得 比 单个 AWS EC2 实例 更 多 
的 内 存 。 

有 了 AWS， 就 可 以 快速 启动 和 运行 ， 而 无 须 维护 自己 的 存储 设备 和 服务 器 。 此 外 ， 大 多 数 
云 服 务 提供 预 配置 的 硬盘 镜像 (ISO )， 这 比 配置 自己 的 服务 器 启动 和 运行 更 快 。 对 于 生产 环境 ， 
像 AWS 或 谷歌 云 服 务 ( Google Cloud Services ) 这 样 的 云 提 供 商 ( Azure 仍 在 追赶 ) 仍 是 有 意义 
的 。 而 对 于 测试 和 实验 ， 大 家 需要 自力 更 生 搭 建 一 个 环境 。 






































































































































创建 AWS GPU 实例 的 步骤 


(1) 登录 AWS 官方 网 站 注册 账户 或 登录 现 有 账户 。 登 录 账 户 后 ， 转 到 AWS 管理 控制 台 ， 
如 图 E-1 所 示 。 

(2) 在 所 有 服务 项 下 选择 EC2, 你 还 可 以 在 页 面 顶 部 的 Services 菜单 中 找到 EC2 服务 。EC2 
指示 板 提供 了 关于 现 有 EC2 实例 的 摘要 信息 ( 如 图 E-2 所 示 )。 

(3) 在 EC2 指示 板 中 ， 单 击 蓝 色 启动 实例 按钮 以 启动 实例 设置 向 导 ， 大 家 可 以 在 这 一 系列 
界面 上 配置 要 启动 的 虚拟 机 。 
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(4) 这 个 界面 上 (如 图 E-3 所 示 ) 显示 了 可 以 安装 上 在 虚拟 机 上 的 服务 器 硬盘 镜像 或 ISO, EMME 
亚马逊 被 称 为 亚马逊 机 器 镜像 (Amazon Machine Images, AMI)’. #2 AMIs 已 经 安装 了 深度 学 习 框 
架 ， 这 样 ， 就 不 需要 安装 和 配置 CUDA 和 BLAS 库 或 诸如 TensorFlow, numpy 和 Keras 之 类 的 
Python 包 。 要 找到 一 个 预先 配置 好 的 免费 深度 学 习 AMI, 单 击 左 侧 的 Amazon Marketplace 或 Community 
AMIs 选项 卡 ， 搜 索 “ 深 度 学 习 ””。 仍然 必 须 配 置 使 用 给 定 AMI 提供 的 所 有 软件 特性 的 硬件 。 
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All Categories 
Software Infrastructure (22) 
Business Software (28) Deep Learning AMI (Ubuntu) Ea 
aie ‘amazon 


o bservices 。 ese st stt [1)| 1.0 | Sold by Amazon Web Services 
™ Operating System 


Clear Filter 


$0.023 to $41.944/nr Inci EC2 charges + other AWS usage fees 





Image (AM) | Updated: 11/13/17 





Y All Windows ing AMI provides a stable, secure, and high performance execution environment for running deep leaming 


Windows 2016 (2) applications on Amazon EC2. It provides pre-installed deep ... 
More inf 
All Linux/Unix 
Amazon Linux (6) = ram ean Deep Learning Base AMI (Ubuntu) | Select | 
CentOS (1) Webservices -d dd (0)| 1.0 | Sold by Amazon Web Services: 
Ubuntu (26) $0.023 to $41.944/hr incl EC2 chargos + other AWS usage foos 


Linux/Unix, Ubuntu 16.04 | 84-bit Amazon Machine Image (AM) | Updated: 11/19/17 
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图 E-3 选择 一 个 AWS 机 器 镜像 


(5) 本 书 中 的 一 些 神经 网 络 代码 在 Deep Learning AMI (Ubuntu ) 上 进行 了 测试 ， 其 旨 在 充 
分 利用 虚拟 机 上 的 所 有 GPU 硬件 。 单 击 要 使 用 的 AMI 旁边 的 蓝 色 Select 按钮 。 如 果 选 择 了 一 个 
Amazon Marketplace 镜像 ,那么 将 会 看 到 在 各 种 具有 GPU 的 EC2 实例 上 运行 AMI 的 价格 预 估 值 
(如 图 E-4 所 示 )。 

(6 ) 许多 开源 AMI， 如 Deep Learning Ubuntu AMI， 都 是 免费 的 ， 所 以 Amazon Marketplace 的 
More Info 页 面 上 的 软件 成 本 栏 显示 为 0 美元 。AWS Marketplace 选项 卡 下 的 其 他 AMI， 如 RocketML 
AMI， 可 能 会 有 与 之 相关 的 软件 成 本 。 不 管 软件 成 本 如 何 ， 如 果 超 出 了 “免费 层 ” 的 限制 ， 则 需要 为 
服务 器 实例 的 开机 时 长 付费 。GPU 实例 不 在 免费 层 中 。 因 此 , 在 运行 昂贵 的 实例 之 前 , 请 确保 自己 的 
流水 线 已 经 在 低 成 本 CPU 机 器 上 完全 测试 过 。 如 果 你 正在 查看 此 价格 表 ( 如 图 E-4 所 示 )， 请 单 击 蓝 
色 的 Continue 按钮 。 如 果 已 经 返回 到 Amazon Marketplace 上 的 AMI 列表 ， 则 可 以 单 击 自己 的 EC2 实 
































Q@ ISO 是 ISO-9660 的 缩写 , ISO-9660 是 国际 标准 组 织 的 一 个 开放 标准 , 用 于 编写 磁盘 镜像 ,使 其 不 仅 可 以 在 一 个 专 有 的 云 服务 
(如 AWS ) 上 ， 还 可 以 在 其 他 地 方 传输 和 安装 。 
@ 在 撰写 本 书 时 ，Amazon Marketplace 中 一 个 这 样 的 镜像 的 AMI ID 是 ami-fld51489。 
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例 上 要 安装 的 AMI 旁边 的 蓝 色 Select 按钮 ， 这 将 进入 “步骤 2: 选择 实例 类 型 ” 如 图 E-5 所 示 )。 


Gi Ecz Management Console 


© & https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#LaunchInstanceW 


Deep Learning AMI (Ubuntu) 


Deep Learning AMI (Ubuntu) Pricing Details 
earning AMI provides a stable, secure, 
mance executio wironment for Hourly Fees 
s on Amazon 
s pre-installed deep leaming 
ding Apache MXNet Caffe2, 
Tensori th, Keras, CNTK and Theano as 
well as packages that enable easy integration with M3 Extra Large 
other AWS services. ... R4 16 Extra Large 


Instance Type 
R3 Eight Extra Large 


Morainfo M4 Extra Large 
View Additional Details in AWS Marketplace Graphics Two Extra Large 


Product Details C3 Quadruple Extra Large 


Sold by Amazon Web Services 
Customer Rating ***** (1) 
Latest Version 1.0 

Base Operating System Linux/Unix, Ubuntu 16.04 

Delivery Method 64-bit Amazon Machine Image (AMI) 

License Agreement End User License Agreement 
On Marketplace Since 11/14117 

AWS Services Required Amazon EC2, Amazon EBS 


T2 Large 

C4 Double Extra Large 
G2 Eight Extra Largo 
R3 Double Extra Large 
C5 Large 


X1 32 Extra Large 
CC2 Cluster Compute 
Highlights T2 Double Extra Large 


72 Extra Large 
= Used Ubuntu 16.04 (ami-cd0fScbé) as the base AMI. 








Configure Instance Details 按钮 。 


(9) 这 里 可 以 配置 实例 细节 ( 如 图 E-6 所 示 )。 如 果 已 经 在 现 有 的 虚拟 私有 云 (VPC ) 上 使 
用 AWS 机 器 ， 则 可 以 将 自己 的 GPU 机 器 分 配给 现 有 的 VPC。 同 一 VPC 上 的 机 器 可 以 使 用 该 
VPC 上 的 相同 网 关 或 堡垒 服务 器 来 访问 大 家 的 机 器 。 但 是 ， 如 果 这 是 大 家 的 第 一 个 EC2 实例 ， 
或 者 没有 “堡垒 服务 器 ”( bastion server) “， 则 不 需要 担心 这 个 问题 。 

( 10 ) 选择 “防止 意外 终止 ”( Protect against accidental termination ) 将 使 大 家 更 难 意外 终止 机 
器 。 在 Amazon Web Services 上 ,“terminate”( 终止 ) 意 为 关闭 机 器 并 删除 其 存储 单元 。“ 停 止 ” 


High VO Quadruple Extra Large 


High Storage Eight Extra Large 





Total 
$2.66/hr 
$0.266/hr 
$4.256/hr 
$0.20/hr 
$0.65/hr 
$0.84/hr 
$1.248/hr 
$0.093/hr 
$0.398/hr 
$2.60/hr 
$0.665/hr 
$0.085/hr 
$4.60/hr 
$13.338/hr 
$2.00/hr 
$0.371/hr 
$0.186/hr 


图 E-4 机 器 镜像 和 AWS 区 域 中 可 用 实例 类 型 的 成 本 一 览 

(7) 在 此 步骤 中 ， 选 择 虚 拟 机 的 服务 需 类 型 ( 如 图 E-5 所 示 )。 最 小 的 GPU 实例 g2.2xlarge 
是 一 个 很 好 的 值 。 亚 马 逊 的 UI 会 预先 选择 更 昂贵 的 类 型 ， 所 以 如 果 想 要 g2.2xlarge 实例 ， 就 必 
须 手 动 选择 它 。 此 外 ， 如 果 选 择 US West 2 ( Oregon ) 作为 自己 所 在 的 地 区 ， 而 不 是 其 他 美国 地 
区 ,大 家 会 发 现 虚 拟 机 要 便宜 得 多 。 大 家 可 以 在 靠近 账户 名 称 的 页 面 右 上 角 的 菜单 中 找到 该 选项 。 

(8) 一 旦 选择 了 想 要 使 用 的 实例 类 型 ， 就 可 以 通过 单 击 蓝 色 的 Review and Launch 按钮 启动 
机 器 。 但 是 对 于 大 家 的 第 一 个 实例 , 大 家 应 该 按照 自己 的 方式 完成 所 有 安装 向 导 步 又 ,这 样 即 便 
决定 接受 这 些 界面 上 的 默认 值 ， 也 可 以 看 到 选项 是 什么 。 要 继续 下 一 步 ， 单 击 灰 色 的 Next: 


(stop) 意 为 关闭 或 挂 起 机 器 ， 同 时 保留 所 有 可 能 保存 到 该 机 器 上 要 持续 存储 的 训练 检查 点 。 





D 亚马逊 有 一 个 关于 Bastion 主机 的 最 佳 实践 教程 。 


创 
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i EC2 Management Console 
































& Cc 个 OM https://us-west-2.console.aws.amazon.com/ec2/v2/home?regior #LaunchinstanceW e wv INO) = 
Services ~ Resource Groups ~ Oregon 
1. Choose AMI 2. Choose Instance Type 3. Configure Instance 4. Add Storage 5. Add Tags 6. Configure Security Group 7. Review 
Step 2: Choose an Instance Type 
ute optimiz e3.xlarge 4 75 2x40 (SSD) Yes Moderate Yes 
Compute optimized ©3.2xlarge 8 15 2 x 80 (SSD) Yes High Yes 
Compute optimized 3.4xlarge 16 30 2x 160 (SSD) Yes High Yes 
c3.8xlarge 32 60 2x320 (SSD) - 10 Yes 
@ FPGA instances fi 2xiarge 8 122 1x470 (SSD) Yes Up to 10 Gigabit Yes 
© f1.16xlarge 64 976 4x940 (SSD) Yes 25 Gigabit Yes 
© g3.4xlarge 16 122 EBS only Yes Up to 10 Gigabit Yes 
© GPU graphics 93.8xlarge 32 244 EBS only Yes 10 Gigabit Yes 
@ GPU graphics g3.16xlarge 64 488 EBS only Yes 25 Gigabit Yes 
w GPU 92.2xlarge 8 15 1x60 (SSD) Yes High - 
GPU instances 92.8xlarge 32 60 2x 120 (SSD) - 10 Gigabit - 
GPU compute p2.xlarge 4 61 EBS only Yes High Yes 
GPU compute p2.8xlarge 32 488 EBS only Yes 10 Gigabit Yes 
GPU compute p2.16xlarge 64 732 EBS only Yes 25 Gigabit Yes 
GPU compute p3.2xlarge 8 61 EBS only Yes Up to 10 Gigabit Yes 
Cancel Previous Next: Configure Instance Details 
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图 E-5 选择 实例 类 型 


e C à Of h 
aws 





//us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#LaunchinstanceW “Or 机 四 | 三 





Services v Resource Groups v Q Fs v 





n~ Support ~ 
1. Choose AMI 2. Choose Instance Type 3. Configure Instance 4. Add Storage 5. Add Tags 6. Configure Security Group 7. Review 


Step 3: Configure Instance Details 
Configure the instance to suit your requirements. You can launch multiple instances from the same AMI, request Spot instances to take advantage of the lower pricing, assign an access 
management role to the instance, and more. 


Number of instances (i 3 Launch into Auto Scaling Group (7 
Purchasing option (j Request Spot instances | 
Network (i vpc-7d930a1a (default) C create new vPG 
Subnet (1 No preference (default subnet in any Availability Zor Create new subnet 
Auto-assign Public IP (7 Use subnet setting (Enable) 
Placement group 全 Add instance to placement group. 
IAMrole G None © Create new IAM role 
Shutdown behavior (7 Stop 





Enable termination protection (i 


Monitoring (i 


EBS-optimized instance 人 


Tenancy (j 
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Protect against accidental termination 


Enable CloudWatch detailed monitoring 
Additional charges apply. 


Launch as EBS-optimized instance 
Additional charges apply. 


Shared - Run a shared hardware instance 
Additional charges will apply for dedicated tenancy. 


Cancel Previous 用 EC TET Tig) Next: Add Storage 


Terms of Use 


图 E-6 ”向 实例 添加 存储 单元 





(11) 要 继续 ， 单 击 Next: Add Storage 按钮 。 
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(12) 在 这 个 步骤 中 (如 图 E-7 所 示 )， 如 果 计 划 使 用 大 型 语料库 ， 可 以 添加 存储 单元 。 但 是 ,最 
好 在 EC2 实例 中 使 用 较 少 的 “本 地 ”存储 , 并 在 EC2 实例 启动 并 运行 之 后 等 待 挂 载 亚马逊 的 S3 Bucket 
或 其 他 云 存储 服务 。 这 允许 跨 多 个 服务 器 共享 大 型 数据 集 或 训练 运行 ( 在 实例 终止 之 间 ) Amazon Web 
Services 将 对 所 有 超过 30 GB“ 本 地 ”EC2 免费 存储 单元 收取 费用 。AWS UX 有 很 多 黑暗 模式 累积 费用 。 














1.Choose AMI 2. Chooselnstance Type 2Confgurelnstance 4AddStorage 5. AddTags 68. Configure Security Group 7. Review 





Step 本 AN Storage 

ir instance will be launched with the following storage device settings. You attach additional EBS volumes and instance store volumes to your instance, or 
ee setting Ea of the root volume, You can also attach additional EBS ve diesa after launching an instance, but not instance store volumes, paa about 
storage option: vase EC2. 


Delete on 


Size (GiB) Termination 
i 
i 


Throughput 


Encrypted 
(MB/s) Ci i 


Volume Type ‘i Device i) Snapshot (i Volume Type ‘i lops (i 


Root idevisdat snap-098855dc12749ca99 50 General Purpose SSD (GP2) 150/3000 N/A Not Encrypted 


Instance Storeo [J ,devwsdb D NA N/A N/A NIA N/A N/A Not Encrypted @ 





Add New Volume 





Free tier eligible customers can get up to 30 GB of EBS General Purpose (SSD) or Magnetic storage. Learn more about free usage tier eligibility and 
usage restrictions. 





a SE Net et Tes 
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图 E-7 向 实例 添加 持续 存储 单元 

(13) 单 击 Next 按钮 继续 进行 下 一 步 ， 查 看 分 配给 EC2 实例 的 默认 标签 和 安全 组 。 最 后 一 
个 Next 按钮 将 向 大 家 发 送 检查 步骤 ( 如 图 E-8 所 示 )。 

(14) 在 检查 界面 上 ( 如 图 E-8 所 示 )，Amazon Web Services 在 预览 中 显示 了 实例 的 详细 信息 。 

(15 ) 在 单 击 Launch 按钮 之 前 ， 确 认 实 例 的 详细 信息 一 一 特别 是 类 型 (RAM 和 CPU )、AMI 
镜像 (Deep Learning Ubuntu ) 和 存储 空间 ( 存储 数据 的 足够 GB )。 此 时 ，AWS 将 启动 虚拟 机 并 
开始 将 软件 镜像 加 载 到 虚拟 机 上 。 

(16) 如 果 以 前 没有 使 用 AWS 创建 过 实例 ， 那 么 它 将 要 求 大 家 创建 一 个 新 的 密 钥 对 ( 如 图 E-9 
所 示 )。 密 钥 对 允许 在 没有 密码 的 情况 下 通过 ssh 进入 机 器 。 上 默认 情况 下 ，EC2 实例 不 允许 通过 
密码 登录 ， 因 此 需要 将 .pem 文件 保存 在 SHOME/ .ssh/ 文 件 夹 下 ， 并 将 其 副本 安全 地 保存 在 本 
地 (例如 密码 管理 器 )， 否 则 将 无 法 访问 正在 运行 的 服务 器 ， 从 而 必须 重新 启动 。 

(17 ) 保存 密 钥 对 ( 如 果 创 建 了 新 的 密 钥 对 ) 后 ，AWS 确认 启动 了 实例 。 在 极 少数 情况 下 ， 
亚马逊 的 数据 中 心 可 能 没有 接收 到 大 家 请 求 的 资源 ， 这 时 将 收 到 一 个 错误 消息 ， 要 求 重新 开始 。 

(18) 单 击 以 i-.… 开 头 的 哈 希 实例 ( 如 图 E-10 所 示 )。 该 链接 将 发 送 所 有 EC2 实例 的 概览 ， 
大 家 将 看 到 实例 状态 指示 为 “正在 运行 ”或 “正在 初始 化 ”。 

(19) 大 家 会 希望 在 .pem 文件 旁 记录 实例 的 公共 IP 地 址 ( 如 图 E-11 所 示 )， 以 获得 前 面 生 
成 的 密 钥 对 。 将 它 存储 在 .pem 文件 的 密码 管理 器 中 是 一 个 好 主意 。 大 家 也 可 以 把 它 放 在 自己 的 
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创建 AWS GPU 实例 的 步骤 


ient Consol 





@ @ https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#LaunchInstanceWi 


aws Services ~ Resource Groups ~ 多 A ~ Oregon Support ~ 


1. Choose AMI 2. Choose Instance Type 3. Configure Instance 4. Add Storage 5. Add Tags 6. Configure Security Group 7. Review 


Step 7: Review Instance Launch 
Please review your instance launch details. You can go back to edit changes for each section. Click Launch to assign a key pair to your instance and complete the launch process. 


mno 





A Improve your instances' security. Your security group, Deep Learning AMI -Ubuntu--1-0-AutogenByAWSMP-,is open to the world. 
Your instances may be accessible from any IP address. We recommend that you update your security group rules to allow access from known IP addresses only. 
You can also open additional ports in your security group to facilitate access to the application or service you're running, e.g., HTTP (80) for web servers. Edit security groups 











A Your instance configuration is not eligible for the free usage tier 
To launch an instance that's eligible for the free usage tier, check your AMI selection, instance type, configuration options, or storage devices. Learn more about free usage tier 
eligibility and usage restrictions. 











~ AMI Details Edit AMI 


Deep Learning AMI (Ubuntu) 
aikeet Doop Learning AMI with Conda (Ubuntu) 


Root Device Type: ebs Virtualization type: hvm 


Hourly Software Fees: $0.00 per hour on g2.2xlarge instance (Additional taxes may apply.) 
‘Software charges will begin once you launch this AMI and continue until you terminate the instance. 


By launching this product, you will be subscribed to this software and agree that your use of this software is subject to the pricing terms and the seller's 
End User License Agreement 


v Instance Type Edit instance type 
Instance Type ECUs vCPUs Memory (GiB) Instance Storage (GB) EBS-Optimized Available Network Performance 
92.2xlarge 26 8 15 1x60 Yes High 


caros proves | [EEES 
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(GB EC2 Management Console x Be 


| © @ https://us-west-2.console.aws.amazon.com/ec?2/v2/home?region=us-west-2#LaunchinstanceW’ ove R| 


Select an existing key pair or create a new key pair 


A key pair consists of a public key that AWS stores, and a private key file that you store, Together, 
they allow you to connect to your instance securely. For Windows AMIs, the private key file is required 
to obtain the password used to log into your instance. For Linux AMIs, the private key file allows you to 
securely SSH into your instance. 


Note: The selected key pair will be added to the set of keys authorized for this instance, Learn more 
about removing existing key pairs from a public AMI. 


Create a new key pair 
Key pair name 
nlp-in-action 


Download Key Pair 





@ You have to download the private key file (*.pem file) before you can continue. Store 
it in a secure and accessible location. You will not be able to download the file 
again after it's created. 








cm 





图 E-9 创建 一 个 新 的 实例 密 钥 ( 或 下 载 一 个 现 有 的 实例 密 钥 ) 
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E/.ssh/config 文件 夹 下 ,这样 就 可 以 给 实例 一 个 主机 名 ， 从 此 以 后 就 不 必 查 找 全 地址 了 。 
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{CZ Management Console 


ow + 羽田 = 





= eco @ @ https://us-west-2.console.aws.amazon.com/ecz/v2/home?region=us-west-2#Launchinsta 





aws Services v Resource Groups v % 





Oregon y Support ~ 


Launch Status 





© Your instances are now launching 
The following instance launches have been initiated: i-OeSdab2ec68602fe9 View launch log 








@ Get notified of estimated charges 
Create billing alerts to get an email notification when estimated charges on your AWS bill exceed an amount you define (for example, if you exceed the free usage tier). 





How to connect to your instances 


Your instances are launching, and it may take a few minutes until they are in the running state, when they will be ready for you to use. Usage hours on your new instances will start immediately and 
continue to accrue until you stop or terminate your instances. 


Click View Instances to monitor your instances status. Once your instances are in the running state, you can connect to them from the Instances screen. Find out how to connect to your 
instances. 


> Getting started with your software 


‘To get started withDeep Learning AMI (Ubuntu) To manage your software subscription 


View Usage Instructions Open Your Software on AWS Marketplace 


v Here are some helpful resources to get you started 
* How to connect to your Linux instance * Amazon EC2: User Guide 
* Learn about AWS Free Usage Tier * Amazon EC2: Discussion Forum 


While your instances are launching you can also 


Create status check alarms to be notified when these instances fail status checks. (Additional charges may apply) 
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KE-10 AWS 启动 确认 





EC2 Management Console 








e oe g @ @ https://us-west-2.console.aws.amazon.com/ec2/v2/home?region=us-west-2#Instances:s: e.e w vii O = 
aws Services v Resource Groups v <% A => Oreqoom Support ~ 
Launch Instance Connect Actions v 
1 owo 
Events 
Tags Q search : h0e6dab2ec68602feg | Add filter @ 1to1of1 
Reports @ | Name -| Instance ID a| Instance Type ~| Availability Zone ~ | Instance State ~ Status Checks ~ Alarm Status Public DNS (IPv4) 
Limits 
a i0e6dab2ec68602feg  g2.2xlarge us-west-2b © sunning È initializing  @ Loading... ec2.34-214-168-12 
=) INSTANCES 
| Instances 


Launch Templates 
Spot Requests 
Reserved Instances 
Dedicated Hosts 
Scheduled Instances 

=) IMAGES 
AMIs 
Bundle Tasks 


=) ELASTIC BLOCK STORE 








Volumes 
Snapshots 
=] NETWORK & SECURITY Public DNS: ec2-34-214-168-124.us-west-2.compute.amazonaws.com BE 
Security Groups 
Elasto Ps Description Status Checks Monitoring Tags 
Placement Groups Instance ID = i-0e6dab2ec68602fe9 Public DNS (IPv4) e02-34-214-168-124.us- 
Key Pairs west-2.compute.amazonaws.com 
Instance state running IPv4 Public IP 34,214.168,124 
Network Interfaces 
Instance type ge.2xlarge IPvelPs - 
=) LOAD BALANCING Elestic IPs Private DNS ip-172-31-26-225.us- 
Load Balancers west-2.compute.internal 





图 E-11 EC2 指示 板 显示 了 新 创建 的 实例 
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一 个 典型 的 配置 文件 将 如 代码 清单 E-1 所 示 。 最 好 将 刚刚 启动 的 EC2 实例 的 HostName 值 
更 改 为 公共 人 P 地 址 (从 EC2 指示 板 更 改 ) 或 完全 限定 域名 (从 AWS 上 的 “Route 53” 指 示 板 更 改 ) 





代码 清单 E-1 $HOME/.ssh/config 


将 INSTANCE PUBLIC IP 更 
Host toralgood SOMA ALN IP Sieh 











User ubuntu 

HostName INSTANCE PUBLIC_IP 

Port 22 

IdentityFile ~/.ssh/nlp-in-action.pem 


# ssh -i ~/.ssh/nlp-in-action.pem ubuntu@INSTANCE_PUBLIC_IP 
大 家 可 以 在 自己 的 配置 文件 中 
留 下 注释 
(20) 在 登录 到 AWS 实例 之 前 ，ssh 需要 私 钥 文件 ( .pem 文件 在 你 的 $HOME/ .ssh 目录 下 ) 
只 能 由 你 自己 和 系统 上 的 根 超级 用 户 读 取 。 大 家 可 以 通过 执行 以 下 bash 命令 来 适当 地 设置 权限 ”: 


这 确保 只 有 你 自己 可 以 删除 、 改 写 、 读 
取 和 执行 $4HOME/.ssh 目录 下 的 命令 


这 是 大 家 下 载 的 .pem X 
件 的 路 径 














chown -R SUSER:users SHOME/.ssh 
chmod 700 $HOME/.ssh 

chmod 600 $HOME/.ssh/nlp-in-action.pem 
chmod -R 600 S$HOME/.ssh/* 











这 确保 只 有 你 自己 可 以 读 
写 自己 下 载 的 .pem 文件 


这 确保 你 可 以 读 写 SHOME/ssh 目录 下 的 
任何 文件 ， 例 如 创建 账户 时 生成 的 默认 的 
文件 id_rsa 和 id_rsa.pub 

(21) 设置 好 适当 的 文件 权限 并 设置 好 配置 文件 后 , 执行 以 下 bash 命令 , 尝试 登录 到 EC2 实例 : 

$ ssh -i ~/.ssh/nlp-in-action.pem ubuntu@INSTANCE_PUBLIC_IP 

(22) 如 果 亚 马 逊 机 器 镜像 是 基于 Ubuntu 的 ， 则 用 户 名 通常 是 ubuntu。 每 个 AMI 都 有 关 
于 登录 所 需 的 用 户 名 和 ssh 端口 号 的 文档 。 

(23) 如 果 大 家 是 第 一 次 登录 ， 则 将 被 警告 机 器 的 指纹 未 知 (如 图 E-12 所 示 )。 输 入 yes 确 
认 继续 登录 过 程 ”。 

(24) 成 功 登录 之 后 ， 大 家 将 看 到 一 个 欢迎 界面 ( 如 图 E-13 所 示 )。 

(25) 作为 最 后 一 步 ， 大 家 需要 激活 喜欢 的 开发 环境 。 机 器 镜像 提供 了 各 种 环境 ， 包 括 
PyTorch, TensorFlow 和 CNTK。 因 为 我 们 在 本 书 中 使 用 了 TensorFlow 和 Keras， 所 以 大 家 应 
该 激活 tensorflow_p36 环境 。 这 将 加 载 一 个 安装 了 Python 3.6, Keras 和 TensorFlow 的 虚拟 环境 
(如 图 E-14 所 示 ): 


$ source activate tensorflow_p36 


nmin wm 





























D 必须 安装 一 个 如 cygwin 或 git-bash 的 bash shell 命令 行 操 作 工 具 , LUE bash ssh 命令 在 Windows 系统 上 执行 。 
D 如 果 将 来 在 大 家 没有 更 改 它 的 IP 地 址 时 看 到 这 个 警告 ， 那 么 可 能 是 有 人 企图 欺骗 你 机 器 的 IP 地 址 或 域 
名 ， 并 使 用 中 间 人 攻击 Cman-in-the-middle attack ) 侵入 你 的 实例 。 这 是 极为 罕见 的 。 
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eoo 2. ssh 





Last login: Thu Nov 16 21:51:26 on ttys007 

You have mail. 

12:48-hannes@Hanness-MBP-2$ ssh -i ~/Downloads/nlp-in-action.pem ubuntu@34.214.168.124 
The authenticity of host '34.214. "i = (34.214. m )" can't be established. 

ECDSA key fingerprint is SHA256:Ys+.Jbmnsmci9/bCSXnvc6b2L.qYzNw07iqM2pL! = sill. 

Are you sure you want to continue connecting (yes/no)? I 








À 


图 E-12 ”交换 ssh 凭据 的 确认 请 3 


eee 2. ubuntu@ip-172-31-26-226: ~ (ssh) 














sl -€ / Deep Learning AMI (Ubuntu) 
































Welcome to Ubuntu 16.04.3 LTS (GNU/Linux 4.4.0-1039-aws x86_64v) 


Please use one of the following commands to start the required environment with the framework of your choice: 


for MXNet(+Keras1) with Python3 CCUDA D source activate mxnet_p36 
for MXNet(+Keras1) with Python2 (CUDA9)_ source activate mxnet_p27 
for TensorFlow(+Keras2) with Python3 (CUDA 8) source activate tensorflow_p36 
for TensorFlow(+Keras2) with Python2 (CUDA 8) _—————————————— source activate tensorflow_p27 
for Theano(+Keras2) with Python3 (CUDA 9) _ —— _ source activate theano_p36 
for Theano(+Keras2) with Python2 (CUDA 9) source activate theano_p27 





for PyTorch with Python3 (CUDA 8) ____ 

for PyTorch with Python2 (CUDA 8) __-__________________. source activate pytorch_p27 
for CNTK(+Keras2) with Python3 (CUDA 8) source activate cntk_p36 
for CNTK(+Keras2) with Python2 (CUDA 8) ~ source activate cntk_p27 
For Gaffez2 with Pythonz CODA 9) -————- r source activate caffe2_p27 
for base Python2 (CUDA 9) _. = = = _ source activate python2 
for base Python3 (CUDA 9) _ = — = _ source activate python3 


__________ source activate pytorch_p36 














Official conda user guide: https://conda.io/docs/user-guide/index. html 
AMI details: https://aws.amazon.com/amazon-ai/amis/details/ 
Release Notes: https://aws.amazon.com/documentation/dLami/Latest/devguide/appendix-ami-reLease-notes . html 














图 E-13 成 功 登 录 后 的 欢迎 界面 


eae 2. ubuntu@ip-172-31-26-225: ~ (ssh) 





Official conda user guide: https://conda.io/docs/user-guide/index. html 
AMI details: https://aws.amazon.com/amazon-ai/amis/details/ 
Release Notes: https://aws.amazon. com/documentation/dLlami/Latest/devguide/appendix-ami-release-notes.htmL 


* Documentation: https://help.ubuntu.com 
* Management: https: //Landscape. canonical . com 
* Support: https: //ubuntu. com/advantage 


Get cloud support with Ubuntu Advantage Cloud Guest: 
http://www. ubuntu. com/business/services/cLloud 


56 packages can be updated. 
31 updates are security updates. 


The programs included with the Ubuntu system are free software; 
the exact distribution terms for each program are described in the 
individual files in /usr/share/doc/*/copyright. 


Ubuntu comes with ABSOLUTELY NO WARRANTY, to the extent permitted by 
applicable Law. 





ubuntu@ip-172-31- i 





source activate tensorflow_p36f 


图 E-14 激活 预先 安装 的 Keras 环境 


$ 
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现在 大 家 已 经 激活 了 TensorFlow 环境 ,已 经 准备 好 训练 自己 的 深度 学 习 NLP 模型 。 使 用 
iPython shell: 


$ ipython 


现在 大 家 已 经 准备 好 训练 自己 的 模型 了 ， 接 下 来 玩 得 开心 ! 


成 本 控制 


在 AWS 这 样 的 云 服务 上 运行 GPU 实例 会 很 昂贵 。 在 撰写 本 书 时 ，US-West 2 地 区 最 小 的 
GPU 实例 的 成 本 为 每 小 时 0.65 美元 。 训 练 一 个 简单 的 序列 到 序列 模型 可 能 需要 几 个 小 时 ， 然 后 
可 能 需要 迭代 模型 参数 。 所 有 的 和 欠 代 会 快速 地 累积 成 一 个 价格 不 菲 的 月 账单 。 大 家 可 以 通过 一 些 
预防 措施 来 最 小 化 意外 花费 ( 如 图 E-15 和 图 E-16 所 示 )。 

四 ”关闭 空闲 的 GPU 机 器 。 当 停止 ( 而 不 是 终止 ) 机 器 时 ， 存储 的 最 后 一 个 状态 (除了 /tmp 
文件 夹 ) 将 被 保留 ， 可 以 返回 到 它 。 内 存 中 的 数据 将 丢失 ， 因 此 请 确保 在 停止 机 需 之 前 
保存 所 有 模型 的 检查 点 。 

四 ”检查 EC2 实例 摘要 页 ， 查 看 正在 运行 的 实例 。 

国定 期 检查 AWS 账单 摘要 ， 以 检查 正在 运行 的 实例 。 

加 创建 一 个 带 有 支出 预警 的 AWS Budget。 一 旦 配置 了 预算 ， AWS 将 在 超出 预算 前 给 出 




















e C 个 © @ https://console.aws.amazon.com/billing/home?region=us-west-2#] -0% + iI\O = 
x 
| Dashboard Billing & Cost Management Dashboard @ 
Bills 
Cost Explorer What’s New in AWS Billing and Cost Management? Month-to-Date Spend by Service Bill Details 
Budgets 。 Manage your spend with AWS Budgets 


The chart below shows the proportion of costs spent for each service you use. 
Reports e Visualize your costs and usage with the newly-optimized Cost Explorer 


2 Easily upload your Cost and Usage Reports into Redshift and 
Cost Allocation Tags 


QuickSight 
Payment Methods 
Payment History Q 
Consolidated Billing Spend Summary Cost Explorer 
Preferences Welcome to the AWS Account Billing console. Your last month, month-to-date, 


and month-end forecasted costs appear below. 











Credits 
Tax Settings Current month-to-date balance for December 2017 
DevPay $0 07 E Ros $0.07 
F 国 DataTranster $0.00 
$25 
EC2 0.00 
$22.67 E $ 
ro Tax $0.00 
Total $0.07 
$15 
$13.06 
$10 
$5 
v $0.07 
Last Month Month-to-Date Forecast 
(November 2017) (December 2017) (December 2017) 
> Important Information about these Costs I) Include Subscription Charges 
hitps://console.aws.amazon.com/biling home?region=us-west-2é/costexplorer YY Usage Vey 


图 E-15 AWS 计 费 指示 板 
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ing Management Console 











<)> ee © @ hitps://console.aws.amazon.com/billing/home?region=us-west-2#/budgets - OW + INO = 
aws Services v Resource Groups v % Global ~ Support v 
Dashboard 
Bils AWS Budgets @ 
Gost Explorer AWS Budgets lets you quickly create custom budgets that will automatically alert you when your AWS costs or usage exceed, or are forecasted to 
Budgets exceed, the thresholds you set. 
Reports 
Cost Allocation Tags 
Create budget 
Payment Methods 
Payment History 
Consolidated Billing Getting started with AWS Budgets 
Preferences 
Credits <a 
Tax Settings C2 ns 
DevPay —~ = 
— 
Create and manage budgets Refine your budget using filters Add notifications to a budget 
Set custom cost and usage budgets to more Track your cost or usage across multiple Ensure that the right people know a threshold 
easily manage your AWS spend. Monitor dimensions by adding filters related to Service, has been exceeded by sending notifications via 
budget status from the Budgets Dashboard. Linked Account(s), Availability Zone, and more. email or publishing notifications to your SNS 


topic. 


For more information about managing your AWS Budgets, refer to Managing Your Costs With Budgets in the Billing & Cost Management User Guide. 











@ English (US) 8 Privacy Policy Terms of Use 





图 E-16 AWS Budget 控制 合 


UU F UO Go yo 














在 第 4 章 中 ， 我 们 学 习 了 如 何 创建 具有 数 百 个 实 值 〈 浮 点 数 ) 维度 的 主题 向 量 。 在 第 6 章 中 ， 
我 们 学 习 了 如 何 创建 具有 数 百 维 的 词 向 量 。 尽 管 可 以 对 这 些 向 量 进 行 数学 运算 ， 但 无 法 像 搜索 离散 























向 量 或 字符 串 那 样 快速 地 对 这 些 向 量 进行 搜索 。 数 据 库 没有 针对 超过 4 个 维度 向 量 的 有 效 索 引 方 案 。 


要 想 有 效 地 使 用 词 向 量 和 文档 主题 向 量 ， 就 需要 一 个 搜索 索引 ， 月 

















同时 需要 这 个 搜索 索引 将 向 量 数学 运算 的 结 是 
会 与 已 有 的 词 向 量 完全 匹配 )。 大 家 还 需要 用 这 个 





来 寻找 任意 给 定向 量 的 最 近邻 。 


























于 局 部 敏感 哈 希 (locality sensitive hash, LSH ) 的 示例 方法 。 


Fl 高 维 向 量 的 区 别 




















转换 成 一 个 或 一 组 词 〈 因为 生成 的 向 量 通常 不 
搜索 索引 进行 语义 搜索 。 本 附录 展示 了 一 个 基 


当 向 量 的 维 数 从 一 维 增加 到 二 维 , 甚至 是 三 维 时 , 快速 寻找 最 近邻 的 数学 方法 本 身 并 没有 多 





大 变化 。 我 们 先 谈 谈 数据 库 中 针对 二 维 向 量 索 引 所 使 有 





会 帮助 大 家 了 解数 学 方法 将 在 何 处 失效 〈 变 得 不 切实 际 )。 


F.1.1 向 量 空间 上 的 索引 与 哈 希 




















的 传统 方法 ,然后 青 来 研究 高 维 疝 下 


Er 


Bo 这 





设计 索引 是 为 了 使 查找 变 得 简单 。 像 经 纬度 这 种 浮 点 值 索 引 不 能 依赖 精确 匹配 ,例如 教科 书 











后 面 的 词 索引 。 对 于 二 维 实 值 数据 , 大 多 数 索 引 使 用 某 种 边界 框 将 低 维 空间 划分 为 多 个 可 管理 的 








块 。 这 种 二 维 地 理 位 置信 息 索引 的 最 常见 的 例子 是 各 国 用 于 收集 相 邻 区 域内 邮件 地 址 的 邮政 编码 





系统 (在 美国 称 为 ZIP Code )。 














大 家 可 以 给 二 维 空间 中 的 每 个 区 域 分 配 一 个 数字 , 尽管 邮政 编码 区 域 不 是 矩形 的 边界 框 , 但 
它们 具有 相同 的 用 途 。 军 事 上 使 用 佛 网 格 系统 的 边界 框 将 全 球 划分 为 矩形 边界 框 , 并 为 每 个 框 分 
配 一 个 数字 。 在 美国 邮政 编码 和 军事 网 格 系统 中 ， 这 些 区 域 的 数字 都 具有 语义 意义 。 













































































D 一 些 高 级 数据 库 〈 如 PostgreSQL ) 可 以 索引 更 高 维度 的 向 量 ， 但 效率 会 随 着 维 数 增加 而 迅速 下 降 。 
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像 美国 邮政 编码 这 样 具 有 “局 部 敏感 性 ”的 哈 希 来 自 这 样 一 个 事实 ， 即 在 序号 值 上 彼此 接近 
的 数字 或 哈 希 在 它们 对 应 的 二 维 空间 上 也 会 彼此 接近 。 例 如 , 美国 邮政 编码 中 的 第 一 个 数字 表示 
一 个 地 区 ， 如 西海 岸 、 西 南部 或 它们 所 属 的 州 。 下 一 个 数字 ( 与 第 一 个 数字 结合 ) 唯一 地 标识 特 
定 的 州 。 前 三 位 数字 唯一 地 标识 州 内 的 区 域 或 大 城市 。 美 国 邮政 编码 的 局 部 敏感 性 一 直 延 续 到 
“+4” 后 级 ， 它 标识 特定 的 城市 街区 ， 甚 至 是 公寓 大 楼 。 

美国 邮政 编码 系统 的 生成 过 程 和 算法 等 效 于 在 其 他 向 量 空间 上 创建 的 局 部 敏感 哈 希 算法 。 局 部 
敏感 哈 希 算法 定义 了 一 种 生成 这 些 局 部 敏感 数字 的 方法 。 它 们 使 用 向 量 空间 中 位 置 的 坐标 ， 所 以 如 
果 区 域 在 向 量 空间 中 的 映射 位 置 彼此 接近 或 有 重 矢 ， 则 其 对 应 的 哈 希 数值 也 会 彼此 接近 。 局 部 敏感 
哈 希 旨 在 创建 一 般 密 码 哈 希 算法 试图 避免 的 那些 数学 属性 ， 例 如 高 概率 的 碰撞 和 局 部 敏感 性 。 




























































































F.1.2 关于 高 维 的 思 


自然 语言 向 量 空间 是 高 维 空间 。 自 然 语言 宫 括 了 人 类 思考 和 交流 中 的 所 有 复杂 概念 , 包括 自 
然 语 言 处 理 本 身 。 所 以 如 果 想 把 所 有 的 复杂 度 压缩 到 一 个 向 量 空间 中 ， 经 常会 丢弃 一 些 复杂 度 ， 
以 便 适 应 这 个 向 量 空间 。 通 过 增加 向 量 的 维 数 ， 能 够 尽 可 能 地 匹配 人 类 思维 和 语言 的 复杂 度 。 

例如 ， 词 袋 向 量 丢弃 了 词 序 中 包含 的 信息 内 容 ， 以 便 生成 能 够 高 效 索 引 和 搜索 的 离散 高 维 向 量 ， 
并 可 以 使 用 二 分 搜索 和 索引 树 来 检测 查询 和 语料库 中 是 否 存在 特定 的 关键 词 。 即 使 将 关键 词 表 扩展 到 
包含 自然 语言 中 的 所 有 词 ， 这 种 方法 依然 有 效 。Web 搜索 引擎 中 甚至 常常 同时 包含 数 百 种 语言 的 所 有 
词 。 这 就 是 大 家 在 使 用 Web 搜索 时 可 以 在 同一 个 查询 同时 包含 西班牙 语 、 德 语 以 及 英语 词 的 原因 。 

在 第 2 章 中 ， 大 家 学 习 了 通过 向 词 袋 向 量 维度 添加 n-gram 来 捕获 词 序 的 复杂 度 。 在 第 3 章 
中 , 学习 了 如 何 根 据 数 百 万 词 项 ( 词 或 n-gram ) 的 重要 性 来 评估 它们 的 权重 。 这 给 语言 的 向 量 空 
间 模 型 带 来 了 数 百 万 的 维度 或 “箱子 ”。 

但 是 词 袋 模型 、TF-IDF 和 正则 表达 式 并 不 能 理解 我 们 。 它 们 只 能 帮 我 们 找到 想 要 找 的 文档 。 
在 第 4~6 章 ， 我 们 学 会 了 构建 连续 的 向 量 空间 ， 将 自然 语言 的 部 分 复杂 度 压缩 到 词 频 整 数 之 间 
的 间 际 中 ,而 不 再 依赖 严格 的 离散 词汇 表 来 定义 向 量 空 间 的 维度 ,通过 将 词 分 组 到 概念 或 主题 中 ， 
可 以 将 向 量 的 维 数 从 数 百 万 减少 到 数 百 。 我 们 还 创建 了 属性 向 量 来 获取 词 和 句子 中 的 女性 、 忧 郁 
和 平静 等 属性 。 

还 有 更 多 。 在 第 7~10 章 中 , 我 们 了 解 了 如 何在 向 量 中 捕获 词组 合 ， 以 及 更 长 更 复杂 的 词 序 
列 。 当 学 习 循环 神经 网 络 和 长 短期 记忆 网 络 时 ， 我 们 的 浅 层 属性 向 量变 成 了 深层 思考 向 量 。 

但 所 有 这 些 深度 和 复杂 度 都 带 来 了 一 个 问题 。 连 续 的 、 密 集 的、 高 维 的 向 量 ( 如 思考 向 量 ) 无 
法 进行 有 效 的 索引 或 搜索 。 这 就 是 搜索 引 获 不 能 在 一 晤 秒 内 回答 我 们 提出 的 复杂 问题 的 原因 。 如 果 
想 要 探讨 生命 的 意义 ， 必 须 找 一 个 聊天 机 器 人 交谈 ， 或 者 干脆 打消 这 个 想法 ， 直 接 找 人 类 会 更 好 。 

这 是 为 什么 呢 ? 为 什么 不 能 对 高 维 连续 向 量 进行 索引 或 搜索 呢 ? 对 于 一 维 向 量 空间 , 在 一 维 
数 轴 上 索引 和 搜索 单个 标量 值 是 非常 容易 的 。 然 后 读者 可 以 思考 一 下 , 如 何 扩展 一 维 索引 来 处 理 






























































































































































































































































QD ZIP Code 维基 百科 文章 包含 一 张 地 图 ， 显 示 了 这 种 局 部 敏感 性 。 


F1 高 维 向 量 的 区 


No 
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多 个 维度 。 读 者 可 以 沿 着 这 个 思路 一 直 思 考 维 数 问题 。 
1. 一 维 索 引 


想象 一 个 一 维 向 量 的 随机 分 布 一 一 一 串 随 机 数 。 我 们 可 以 创建 一 个 自然 的 一 维 边界 框 ， 它 的 宽度 
是 整个 空间 宽度 的 一 半 ， 方 法 是 将 数 轴 切 成 两 半 ， 然 后 就 可 以 把 所 有 正 值 放 在 一 个 框 里 ， 负 值 放 在 另 
一 个 框 里 。 只 要 知道 向 量 空间 的 中 心 或 质心 的 位 置 (通常 为 零 )， 每 个 框 中 就 会 有 大 约 一 半 的 向 量 。 

每 个 边界 框 都 可 以 再 一 分 为 二 , 总 共 创 建 4 个 框 。 如 果 继 续 这 样 做 ， 其 中 的 一 些 划 分 将 创建 
一 个 二 又 查 找 树 或 一 个 二 进 制 哈 希 ,该 哈 希 对 局 部 ( 它 的 位 置 ) 很 敏感 。 对 于 一 维 向 量 空间 ， 每 
个 框 中 点 的 平均 数量 是 pow (num_vectors/2, num boxes) 。 对 于 一 维 空间 ， 只 需要 大 约 32 
个 级 别 ( 框 大 小 ) 的 框 就 可 以 索引 数 十 亿 个 点 ， 这 样 每 个 框 中 就 只 有 几 个 点 。 

每 个 一 维 向 量 都 可 以 有 自己 的 邮政 编码 、 索 引 值 或 局 部 敏感 哈 希 。 将 所 有 这 些 哈 希 值 排序 之 后 ， 
相似 的 向 量 将 彼此 相 邻 。 如 此 一 来 ， 对 于 新 查询 就 可 以 计算 它们 的 哈 希 值 ， 并 在 数据 库 中 快速 找到 它 。 


2. 二 维 、 三 维 、 四 维 索 引 


我 们 添加 一 个 维度 , 看 看 一 维 二 又 树 索引 如 何 工 作 。 考虑 一 下 如 何在 二 又 树 中 将 空间 划分 成 区 域 ， 
用 树 中 的 每 个 又 将 区 域 大 致 分 成 两 半 。 在 试图 将 点 数 减 半 时 ， 在 哪个 维度 上 减 半 呢 ?对 于 二 维 向 量 ， 
这 是 二 维 平面 上 的 2 x2 个 正方 形 或 象限 。 对 于 三 维 向 量 ， 这 可 能 是 空间 的 “魔方 ”中 的 3x3 x3 块 。 
对 于 四 维 向 量 , 需要 大 约 4x4x4x4 块 …… 二 又 树 索 引 的 第 一 个 分 又 将 会 产生 人 * 个 分 支 。 在 四 维 向 量 
空间 中 的 这 256 个 边界 框 可 能 有 一 些 不 包含 任何 向 量 ， 因 为 有 些 词组 合 或 序列 从 未 出 现 过 。 

这 个 朴素 二 义 树 方法 适用 于 三 维 、 四 维 、 一 直到 八 维 向 量 甚至 更 多 维 。 但 它 很 快 就 变 得 不 守 
规矩 、 效 率 低下 。 想 象 一 下 边界 “立方 体 ”在 10 维 空间 中 会 是 什么 样子 。 如 果 你 的 大 脑 不 能 处 
理 这 个 概念 的 话 也 没关系 ,因为 别人 也 一 样 。 人 类 的 大 脑 生 活 在 三 维 世 界 中 , 所 以 连 四 维 向 量 空 
间 的 概念 也 不 能 完全 掌握 。 

机 器 可 以 处 理 10 维 空间 ,但 是 如 果 想 把 人 类 思维 的 复杂 度 压缩 到 向 量 中 ， 则 需要 它们 能 够 
处 理 100 维 甚至 更 多 维 。 我 们 可 以 用 几 种 不 同 的 方式 来 思考 这 个 维 数 灾难 。 

m 维度 的 组 合 随 着 维 数 的 增加 呈 指 数 级 增长 。 

E 在 高 维 空间 中 ， 所 有 的 向 量 都 彼此 远离 。 

E 高 维 向 量 空间 大 多 为 空间 量 一 一 随机 边界 框 几乎 总 是 空 的。 




















































































































代码 清单 F-1 中 的 代码 可 以 帮助 读者 了 解 高 维 空间 的 这 些 属性 。 


代码 清单 F-1 探索 高 维 空 间 





>>> import pandas as pd 
>>> import numpy as np 
>>> from tqdm import tqdm 


>>> num_vecs = 100000 
>>> num_radii = 20 
>>> num_dim_list = [2, 4, 8, 18, 32, 64, 128] 








418 附录 F ”局 部 敏感 哈 希 
>>> radii = np.array(list(range(1, num radii + 1))) 
>>> radii = radii / len (radii) 
>>> counts = np.zeros((len(radii), len(num_dims_list))) 
>>> rand = np.random.rand 
>>> for j, num dims in enumerate (tqdm (num dim list)): 归 一 化 随机 行 向 量 为 
x = rand(num_vecs, num dims) 单位 长 度 
denom = (1. / np.linalg.norm(x, axis=1)) 
x *= denom.reshape(-1, 1).dot(np.ones((1, x.shape[1]))) 
for i, r in enumerate (radii): 
mask = (Sr < x) & (x < T} 
counts[i, j] = (mask.sum(axis=1) == mask.shape[1]) .sum() 
读者 可 以 在 本 书 源 代码 中 的 nl1Pia/book/examples/ch_apP_h.py 中 探索 这 个 奇怪 的 高 维 空 
间 世 界 。 在 下 面 的 表格 中 可 以 看 到 很 多 奇怪 的 地 方 ， 它 显示 了 在 按 点 扩展 时 每 个 边界 框 中 点 的 密度 : 


>>> df = pd.DataFrame(counts, index=radii, columns=num_dim_list) / num_vecs 
>>> df = df-.round(2) 
>>> df[df == 0] = "" 
>>> df 
2 4 8 18 32 64 128 
0.05 
0.10 
0.15 0.37 
0.20 O. 
0.25 
0.30 0.555 
0.35 0.12 0.98 
0.40 0.62 
0.45 03103.- -10392 
0.50 0.2 0.99 
0405. 0.0 z 
0.60 0.08 0.75 
0:05 0.24 0.89 
0.70 0.45 0.96 
0.75 0.12 0.64 0.99 
0.80 0.25 0.78 1 
0.85 038 "0:88 1 
0.90 0.51 0.94 1 
0.95 0.67 0.98 i: 
1.00 È 1 




















有 一 种 索引 算法 称 为 KD-Tree， 它 试图 尽 可 能 有 效 地 划分 高 维 空 





间 ， 以 最 小 化 空 的 边界 框 数 











量 。 但 即使 是 这 


文 些 方法 ， 当 维 数 灾 难 开始 起 作用 时 ,也 会 使 其 


在 遇 到 数 十 维 或 数 百 维 时 前 溃 。 
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二 维和 三 维 | 





句 量 不 同 , 对 于 高 维 词 向 量 和 思考 向 量 , 不 可 能 真正 索引 或 哈 希 并 快速 检索 到 最 接近 














的 匹配 ,而 是 需 


要 多 次 计算 到 最 近邻 的 距离 ， 直 到 找到 一 些 很 接近 的 。 或 者 ， 如 果 想 要 确保 没有 


漏 掉 ， 则 必须 计算 所 有 的 可 能 选项 。 


F2 高 维 索 引 


在 高 维 空 
































x 间 中 , 依赖 边界 框 的 常规 索引 会 失效 。 最 终 , 即使 是 局 部 敏感 哈 希 也 会 失效 。 但 是 ， 
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我 们 先 用 局 部 敏感 哈 希 来 试验 一 下 它 的 限制 。 然后 , 大 家 将 学 习 如 何 通过 放弃 完美 索引 的 想法 来 
避 开 这 些 限 制 。 在 使 用 局 部 敏感 哈 希 进行 试验 之 后 ， 大 家 将 创建 一 个 近似 索引 。 


F.2.1 局 部 敏感 哈 希 


在 图 F-1 中 ， 我 们 构建 了 400 000 个 完全 随机 的 向 量 ， 每 个 向 量 都 有 200 个 维度 ( 对 于 大 型 
语料库 ， 主 题 向 量 是 典型 的 )。 我 们 用 Python LSHash 包 (pip install lshash3 ) 对 它们 进 
行 了 索引 。 现 在 假设 有 一 个 搜索 引 敬 ， 它 想 要 找到 与 查询 主题 向 量 接近 的 所 有 主题 向 量 。 局 部 敏 
感 哈 希 需要 收集 多 少 个 向 量 ? 主题 向 量 的 维 数 达 到 多 少时 ， 我 们 的 搜索 结果 会 根本 没有 意义 呢 ? 





100th Cosine Top 10 Top 100 
D N Distance Top 1 Correct Top 2 Correct Correct Correct 


2 4254 
3 7727 
4 12198 
5 9920 
6 11310 
7 12002 
8 11859 
9 6958 











10 5196 
11 3019 
12 12263 
13 1562 
14 733 
15 6350 
16 10980 





图 F-1 基于 LSHash 的 语义 搜索 
一 旦 维 数 明 显 超过 10， 就 很 难得 到 许多 正确 的 搜索 结果 。 如 果 大 家 想 亲 自 党 试 一 下 ， 或 者 
想 尝 试 构建 一 个 更 好 的 LSH 算法 , nlpia 包 中 提供 了 运行 类 似 实验 的 代码 。lshash3 包 是 开源 
的 ， 其 核心 只 有 大 约 100 行 代 码 。 


F.2.2 ”近似 最 近邻 

近似 最 近邻 搜索 是 解决 高 维 向 量 空间 问题 的 最 新 方法 。 近 似 哈 希 类 似 于 局 部 敏感 哈 希 和 KD 
树 , 但 它们 依赖 更 像 是 随机 森林 算法 的 东西 。 它 们 是 将 向 量 空间 分 割 成 越 来 越 小 的 空间 块 的 随机 
方法 。 

目前 高 维 向 量 搜索 匹配 技术 的 最 先进 方法 是 Facebook 的 FAISS 包 和 Spotify 的 Annoy 包 。 
Annoy 包 的 安装 和 使 用 非常 简单 ， 所 以 我 们 在 聊天 机 器 人 中 选择 使 用 这 个 包 。 除 了 在 音乐 爱好 
者 歌曲 元 数据 的 向 量 表示 上 进行 搜索 匹配 ，Dark Horse Comics 还 用 Annoy 包 来 高 效 地 推荐 漫画 
书 。 我 们 在 第 13 章 中 提 到 了 这 些 工 具 。 











附录 F 局 部 敏感 哈 希 
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Fs 推 文 点 赞 预测 
图 F-2 是 一 个 推 文集 合 在 超 空间 中 的 展示 。 这 是 将 这 些 推广 
量 (点 ) 投影 到 二 维 平 面 上 得 到 的 结果 。 大 多 数 标记 表示 至 少 被 
HE MEX. 


A 得 到 的 100 维 主题 向 
过 一 次 的 推 文 ， 小 部 分 


通 


通过 LS 
“HE ” 



































标记 是 针对 那些 没有 收 到 任何 









































图 F-2 ” 推 文 的 4 个 主题 的 散 点 和 矩阵 


用 LDA 模型 来 拟 合 这 些 主题 向 量 有 80% 的 成 功率 。 然 而 ， 就 像 短 消息 数据 集 一 样 ， 这 个 推 
文 数据 集 也 非常 不 平衡 。 因 此 , 使 用 该 模型 去 预测 新 推 文 的 精确 率 可 能 不 会 太 高 。 对 于 下 面 这 些 
可 以 用 方差 最 大 化 ( 代表 类 的 可 分 性 很 强 ) 的 分 类 问题 ， 大 家 可 能 只 使 用 LSA. LDA 和 LDiA 
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语言 模型 就 足够 了 : 
m 语义 搜索 ; 
m 情感 分 析 ; 
mw 垃圾 邮件 检测 。 
而 对 于 需要 从 语义 内 容 相 似 性 中 归纳 文本 之 间 微 妙 区 别 的 问题 , 则 需要 用 到 工具 箱 中 最 
AY NLP 工具 。 利 用 LSTM 深度 学 习 模型 和 t-SNE 降 维 技术 可 以 解决 下 面 这 类 难题 : 


复杂 





国人 类 反应 预测 ( 推 文 可 爱 度 ); 


m 机 融 翻 译 ; 
E 自然 语言 生成 。 





U0 














在 写本 书 的 过 程 中 ,我 们 用 到 了 大 量 的 资源 。 下 面 是 我 们 的 一 些 最 爱 。 

在 理想 情况 下 , 大 家 可 以 在 一 些 语义 搜索 引擎 中 直接 输入 标题 文本 来 获取 这 些 资 源 , 常用 的 
语义 搜索 引擎 包括 DuckDuckGo, Gigablast 和 Qwant。 不过， 在 Jimmy Wales 用 Wikia Search 或 
Google 分 享 他 们 的 NLP 技术 之 前 ， 我 们 还 是 需要 依赖 下 面 这 些 20 世纪 90 年 代 风 格 的 列表 。 如 
果 大 家 想 参 与 开源 Web 索引 项 目 ， 请 查看 “搜索 引擎 ”一 节 。 











应 用 及 项 目 
下 面 是 一 些 可 以 启发 大 家 开发 自己 的 NLP 项 目的 应 用 程序 。 








从 社交 网 络 档 案 中 猜测 密码 。 
聊天 机 器 人 律师 在 伦敦 和 纽约 撤销 了 16 万 张 停 车 罚单 ( Chatbot lawyer overturns 160 000 
parking tickets in London and New York )。 














GitHub——craigboman/gutenberg: 面向 NLP 和 机 器 学 习 的 gutenberg 项 目 数据 图 书 管 
理 员 。 











基于 手写 文字 词汇 和 句法 变化 对 痴呆 的 深度 检测 ( Longitudial Detection of Dementia 
Through Lexical and Syntactic Changes in Writing ) ——Xuan Le 的 硕士 论文 《心理 诊断 与 
NLP). 

时 间 序 列 匹 配方 法 (Time Series Matching: a Multi-filter Approach )， 王 志 华 提出 的 一 种 多 
过 滤器 方法 一 一 通过 类 似 于 莱 文 斯 坦 距 离 的 动态 规划 算法 ， 对 歌曲 、 音 频 剪 辑 和 其 他 时 
间 序 列 进行 离散 化 和 搜索 。 

NELL (Never Ending Language Learning， 永 恒 语言 学 习 ) ——CMU 提出 的 通过 自然 语 
言 文本 来 不 断 学 习 发 展 的 知识 库 。 
美国 国家 安全 局 是 如 何 识别 中 本 聪 的 ? (How the NSA identified Satoshi Nakamoto? ) 一 一 
《 连 线 》 杂 志和 美国 国家 安全 局 使 用 NLP 确定 了 中 本 聪 的 身份 。 












































422 


资源 


文体 分 析 ( Stylometry ) 和 社交 媒体 的 作者 身份 分 析 ( Authorship Attribution for Social Media 
Forensics ) 一 一 风格 /模式 匹配 和 自然 语言 文本 (也 包括 音乐 和 艺术 品 ) 的 聚 类 ， 用 于 作 
者 身份 和 归属 分 析 。 

Your Dictionary 这 样 的 在 线 字典 可 以 使 用 POS 标注 来 做 句子 语法 校正 ，POS 标注 可 以 用 
来 训练 定制 的 Parsey McParseface 句法 树 和 POS 标签 需 。 

纽约 数据 科学 学 院 的 Julia Goldstein 和 Mike Ghoul 用 NLP 技术 来 识别 “ 假 新 闻 ”。 
Andreas Vlachos 的 simpleNumericalFactChecker 和 信息 提取 ( 见 第 11 章 ) 可 用 于 对 出 版 
商 、 作 者 和 记者 的 真实 性 进行 排名 。 可 以 与 Julia Goldstein 的 “ 假 新 闻 ” 预 测 器 相 结 合 。 
artificial-adversary 包 ， 用 于 生成 模糊 自然 语言 文本 (可 以 将 “you are great” 转 为 “ur gr8” ), 
作者 Jack Dai， 他 是 Airbnb 的 一 名 实习 生 。 可 以 训练 一 个 机 器 学 习 分 类 器 来 检测 英语 并 
将 其 翻译 成 模糊 的 英语 或 L33T。 还 可 以 训练 一 个 词 干 分 析 絮 (生成 具有 字符 特性 模糊 词 
的 自动 编码 器 ) 来 解码 模糊 处 理 后 的 词 ,使 NLP 流水 线 可 以 处 理 模糊 的 文本 而 无 须 重新 
训练 。 感 谢 Aleck。 












































课程 与 教程 
下 面 列 出 一 些 来 自 著名 大 学 项 目的 优秀 教程 、 演 示 和 课件 ， 其 中 许多 都 配备 了 Python 示例 。 

















《语音 与 语言 处 理 》 作者 David Jurafsky 和 James H. Martin: 如 果 大 家 对 NLP 是 认真 的 ， 
就 应 该 读 一 读 这 本 书 。Jurafsky 和 Martin 对 NLP 概念 的 解释 更 为 透彻 ， 也 更 有 说 服 力 。 
本 书 中 忽略 的 很 多 概念 在 他 们 的 书 中 都 有 整 章 的 介绍 ， 如 有 限 状 态 机 (FST )、 隐 马尔 可 
夫 模 型 ( HMM )、 词 性 (POS ) 标注 、 句 法 分 析 、 语 句 连贯 性 分 析 、 机 带 翻 译 、 摘 要 生 
成 和 对 话 系 统 等 。 

麻 省 理工 学 院 通 用 人 工 智能 课程 由 Lex Fridman 开设 于 2018 年 2 月 一 一 麻 省 理工 学 院 的 
免费 互动 (公开 竞争 ! ) AGI 课程 。 这 可 能 是 人 工 智 能 工程 最 透彻 、 最 严格 的 免费 课程 。 


DHE ny 


Textacy: NLP. before and after spaCy 一 一 SpaCy 的 主题 建 模 包装 器 。 












































E 麻 省 理工 学 院 2003 年 春季 课程 : 自然 语言 与 计算 机 知识 表示 课程 。 

m 《奇异 值 分 解 》( Singular value decomposition ) (SVD )， 作 者 Kardi Teknomo 博士 。 

E 《信息 检索 导论 》 作者 Christopher D. Manning, Prabhakar Raghavan 和 Hinrich Schiitze。 
工具 和 包 

E nlpia 一 一 本 书 中 用 到 的 NLP 数据 集 、 工 具 和 示例 脚本 。 

E OpenFST, 作者 Tom Bagby, Dan Bikel, Kyle Gorman 和 Mehryar Mohri 等 一 一 有 限 状 态 


转换 机 的 开源 C++ 实现 。 
pyfst， 作 者 Victor Chahuneau 





OpenFST 的 Python 接口 。 
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斯坦 福 大 学 的 CoreNLP 一 一 最 先进 的 句子 切 分 、 日 期 提取 、 词 性 标注 、 语 法 检查 等 的 Java 
包 ， 作 者 Christopher D. Manning 等 。 
stanford-corenlp3. 8 .0 一 一 斯 坦 福 大 学 的 CoreNLP 的 Python 接口 。 

用 于 构建 TensorFlow 和 Theano 计算 图 (神经 网 络 ) 的 高 级 API. 
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要 想 对 一 个 话题 有 深刻 的 理解 , 最 好 的 方法 之 一 就 是 重复 研究 人 员 的 实验 , 然后 以 某 种 方式 
修改 它们 。 这 就 是 最 好 的 教授 和 导师 “教导 ”学 生 的 方式 ， 他 们 会 鼓励 学 生 尝试 复 现 他 们 感 兴 
的 其 他 研究 人 员 的 成 果 。 如 果 大 家 花 了 足够 的 时 间 来 使 用 这 些 项 目 ， 就 会 忍 不 住 想 要 去 调整 它 。 









































向 量 空间 模型 及 语义 搜索 





Semantic Vector Encoding and Similarity Search Using Fulltext Search Engines 
等 人 使 用 传统 的 倒 排 索引 实现 对 所 有 维基 百科 的 高 效 语义 搜索 。 

Learning Low-Dimensional Metrics Lalit Jain 等 人 将 人 类 的 判断 融入 成 对 的 距离 度量 
中 ， 可 以 更 好 地 进行 决策 ， 以 及 对 词 向 量 和 主题 向 量 进行 无 监督 聚 类 。 例 如 ， 招 聘 人 员 
可 以 用 它 来 引导 一 个 基于 内 容 的 推荐 引擎 ， 将 简历 与 职位 描述 匹配 起 来 。 

RAND-WALK: A latent variable model approach to word embeddings ， 作 者 Sanjeev Arora, 
Yuanzhi Li, Yingyu Liang, Tengyu Ma 和 Andrej Risteski 解释 如 何 用 Word2vec 和 其 
他 词 向 量 空 间 模 型 进行 “面向 向 量 的 推理 ”的 最 新 理解 (2016 年 )， 特 别 是 类 比 问题 。 
Efficient Estimation of Word Representations in Vector Space, 作者 是 谷歌 公司 的 Tomas 
Mikolov, Greg Corrado, Kai Chen 和 Jeffrey Dean, 2013 年 9 月 一 一 首次 发 表 Word2vec 
模型 ， 包 括 一 个 基于 C++ 实现 的 使 用 谷歌 新 闻 语 料 库 进 行 预 训练 的 模型 。 

Distributed Representations of Words and Phrases and their Compositionality， 作 者 谷歌 公司 
的 Tomas Mikolov , Ilya Sutskever , Kai Chen, Greg Corrado 和 Jeffrey Dean 一 一 对 Word2vec 
模型 进行 了 改进 ， 包 括 子 抽样 和 负 抽 样 ， 从 而 提高 了 其 精确 性 。 

From Distributional to Semantic Similarity, James Richard Curran 写 的 2003 年 的 博士 论文 一 一 
大 量 经 典 的 信息 检索 ( 全 文 检索 ) 研究 ,包括 TF-IDF 归 一 化 和 Web 搜索 的 页 面 排名 技术 。 


Jan Rygl 



















































































Predicting Stock Returns by Automatically Analyzing Company News Announcements 
Bella Dubrov 使 用 gensim 的 Doc2vec 实现 基于 公司 公告 来 预测 股价 , 并 对 Word2vec 和 
Doc2vec 进行 了 出 色 的 解释 。 
Building a Quantitative Trading Strategy to Beat the S&P 500 一 一 在 2016 年 PyCon 大 会 上 ， 
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Karen Rubin 阐述 了 她 是 如 何 发 现 女 性 首席 执行 官 在 预测 股价 上 涨 中 的 作用 , 尽管 并 不 像 
她 最 初 设 想 的 那么 强 相关 。 





问答 系统 


E Keras-based LSTM/CNN models for Visual Question Answering, 作者 Avi Singh. 

E Open Domain Question Answering: Techniques, Resources and Systems, ¥E% Bernardo 
Magnini. 

E Question Answering Techniques for the World Wide Web， 作 者 林 凯 兹 ， 加 拿 大 滑铁卢 大 学 。 

E NLP-Question-Answer-System 使 用 corenlp 和 nltk 从 零 开 始 完 成 句子 切 分 和 词性 











标注 。 
E PiQASso: Pisa Question Answering System, WË Attardi 等 ， 使 用 了 传统 的 信息 检索 (IR) 
NLP, 
深度 学 习 
E Understanding LSTM Networks, E% Christopher Olah 一 一 对 LSTM 进行 了 清晰 而 正确 的 
解释 。 





E Learning Phrase Representations using RNN Encoder—Decoder for Statistical Machine 
Translation ,作者 Kyunghyun Cho 等 在 2014 年 发 表 的 论文 一 一 首次 引入 了 门 控 循 环 单元 ， 
使 LSTM 对 NLP 的 效率 更 高 。 


LSTM 与 RNN 


我 们 很 难 理解 LSTM 的 术语 和 架构 。 这 里 有 一 个 引用 得 最 多 的 参考 文献 的 集合 , 因此 大 家 可 
以 让 作者 “投票 ”LSTM 的 正确 讨论 方式 。 关于 LSTM 的 维基 百科 页 面 的 状态 很 好 地 说 明了 目前 
对 于 LSTM 的 含义 缺乏 共识 。 

E Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine 

Translation, VEF Cho 等 一 一 解释 了 如 何 用 LSTM iciZocH AWA ATE AKA, IEK 
序列 进行 编码 ， 然 后 再 解码 为 一 个 新 的 变 长 序列 ， 实 现 一 个 序列 到 另 一 个 序列 的 翻译 或 
编码 转换 。 

E Reinforcement Learning with Long Short-Term Memory， 作 者 Bram Bakker 一 一 将 LSTM 应 

用 于 规划 和 预期 认 知 , 并 演示 了 一 个 可 以 解决 T 型 迷宫 导航 问题 和 高 级 杆 平衡 (倒立 摆 ) 
问题 的 网 络 。 

E Supervised Sequence Labelling with Recurrent Neural Networks——Alex Graves 与 导师 B. 

Brugge 的 论文 , 针对 1997 年 Hochreiter 和 Schmidhuber 首次 提出 的 LSTM 精确 梯度 的 详 
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细 数 学 解释 。 但 是 Graves 没有 严格 定义 像 CEC 或 LSTM 记忆 块 /元 胞 这 样 的 术语 。 
Theano LSTM 文档 , 作者 Pierre Luc Carrier 和 Kyunghyun Cho 一 一 对 LSTM 在 Theano 和 
Keras 中 的 实现 进行 了 图 解 和 说 明 。 

Learning to Forget: Continual Prediction with LSTM, 作 者 Felix A. Gers Jurgen Schmidhuber 
和 Fred Cummins 一 一 使 用 非 标 准 符号 表示 输入 层 (y") 和 输出 层 O) 以 及 内 部 隐藏 状 
态 (hh )。 所 有 的 数学 和 图 表 都 是 “向 量化 的 ”。 

Sequence to Sequence Learning with Neural Networks， 作 者 是 谷歌 公司 的 Ilya Sutskever、 
Oriol Vinyals 和 Quoc V. Le。 

Understanding LSTM Networks, Charles Olah 在 2015 年 的 博客 一 一 包含 许多 高 质量 图 表 
和 来 自 读 者 的 讨论 /反馈 。 

Long Short-Term Memory, 由 Sepp Hochreiter 和 Jurgen Schmidhuber 在 1997 年 发 表 一 一 关 
于 LSTM 的 原始 论文 ， 术语 陈 旧 ， 实 现 效 率 低下 ,但 数学 推导 详细 。 























竞赛 与 奖励 


E Large Text Compression Benchmark, 一 些 研 究 人 员 认 为 ， 自然 语言 文本 的 压缩 等 效 于 通用 


人 工 智能 ( AGI )。 


E Hutter _ Prize， 压 缩 100 MB 维基 百科 自然 语言 文本 的 年 度 竞赛 。Alexander Rhatushnyak 





在 2017 年 获奖 。 
Open Knowledge Extraction Challenge 2017. 


数据 集 
自然 语言 数据 随处 可 见 。 语 言 是 人 类 的 超 能 力 ， 大 家 在 工作 流 中 应 该 尽量 利用 数据 优势 : 




















谷歌 公司 的 Dataset Search 一 一 用 于 数据 检索 的 搜索 引擎 ， 类 似 于 谷歌 学 术 搜 索 。 

斯 坦 福 数据 集 ( Stanford Datasets ) 一 一 包含 预 训练 的 word2vec 和 GloVE 模型 、 多 语言 
模型 和 数据 集 、 多 语言 字典 、 辞 典 及 语料库 。 

预 训练 词 向 量 模型 ( Pretrained word vector models ) 词 问 量 Web API 的 README 说 
明 ， 提 供 了 一 些 词 向 量 模型 的 链接 ， 包 括 300 维 维基 百科 GloVE 模型 。 

NLP 任务 的 数据 集 / 语 料 库 列 表 ， 按 倒序 时 间 排 列 ， 由 Karthik Narasimhan 编写 。 

NLP 领域 中 使 用 的 免费 /公开 数据 集 (文本 数据 ) 的 列表 ， 按 字母 顺序 排列 。 

基本 自然 语言 处 理 的 数据 集 和 工具 一 一 谷歌 公司 的 国际 化 工具 。 

nlpia 用 于 所 有 NLP 数据 加 载 器 (nlpia.1loaders ) 和 预 处 理 器 的 Python 包 , 在 
本 书 中 会 一 直 用 到 这 个 工具 包 。 
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搜索 引擎 


搜索 (信息 检索 ) 是 自然 语言 处 理 的 重要 组 成 部 分 。 我 们 要 学 会 正确 地 使 用 搜索 引擎 ,这样 
人 工 智能 (和 企业 ) 霸主 就 不 能 通过 他 们 灌输 给 我 们 大 脑 的 信息 来 操纵 我 们 ， 这 一 点 非常 重要 。 
如 果 大 家 想 通过 搭建 自己 的 搜索 引擎 来 学 习 如 何 检索 信息 ， 以 下 是 一 些 有 用 的 资源 。 


搜索 算法 


国 Billion-scale similarity search with GPUs—BidMACH 是 一 种 对 高 维 向 量 进行 索引 和 KNN 
搜索 的 算法 实现 ， 类 似 于 Python 包 annoy。 本 文 介绍 了 一 种 GPU 增强 方法 ， 比 原来 的 
实现 快 8 倍 。 

E Spotify 的 Annoy 软件 包 , 作者 Erik Bernhardsson 一 一 这 是 一 种 KNN 算法 , 用 于 在 Spotify 
上 查找 相似 的 歌曲 。 

E New benchmarks for approximate nearest neighbors， 作 者 Erik Bernhardsson 一 一 近似 最 近邻 
算法 是 大 规模 语义 搜索 的 关键 ， 作 者 Erik 密切 关注 最 新 的 技术 状态 。 











































































































开源 搜索 引擎 


E “BeeSeek 一 一 开源 分 布 式 Web 索引 和 私有 搜索 (hive 搜索 )， 已 经 不 再 维护 。 
四 ”WebSPHNIX 一 一 用 于 构建 网 络 疏 虫 程序 的 Web GUI. 


开源 全 文 索引 器 


有 效 的 索引 对 于 任何 自然 语言 搜索 应 用 程序 都 是 至 关 重 要 的 。 下 面 是 一 些 开 源 全 文 索引 项 
目 。 不 过 ， 这 些 “ 搜 索引 擎 ”不 会 抓 取 Web ， 所 以 大 家 需要 提供 用 于 索引 和 搜索 的 语料库 : 
开源 、 分 布 式 、REST 风格 的 搜索 引擎 。 
E Apache Lucern + Solr. 
@ Sphinx Search. 
E Kronuz/Xapiand, 一 个 REST 风格 的 搜索 引擎 一 一 提供 在 Ubuntu 中 搜索 本 地 硬盘 的 包 ( 就 
像 以 前 的 谷歌 桌面 一 样 )。 
Indri 一 一 带 Python 接口 的 语义 搜索 ， 但 维护 不 够 积极 。 























E Elasticsearch 

















Gigablast 一 一 基于 C+ 的 开源 网 络 息 虫 程序 和 自然 语言 索引 器 。 
Zettair 开源 HTML FI TREC 索引 器 (没有 把 虫 程序 或 实际 例子 ) 上 次 更 新 是 在 2009 年 。 











OpenFTS, 全 文 搜索 引擎 一 一 使 用 PostgreSQL 为 PyFTS 提供 全 文 搜 索索 引 , 带 Python API. 


搜索 引擎 的 操控 性 
大 多 数 人 使 用 的 搜索 引擎 并 不 是 为 了 帮助 大 家 找到 需要 的 东西 而 优化 的 , 而 是 为 了 确保 大 家 点 
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击 的 链接 能 为 构建 它 的 公司 带 来 收入 。 谷 歌 提出 的 创新 式 第 二 价格 密封 竞价 拍卖 确保 了 广告 商 不 
会 支付 过 高 的 广告 费用 ， 但 它 并 不 能 阻止 搜索 用 户 在 点 击 伪装 广告 时 支付 过 高 的 费用 。 这 种 搜 
索 操 控 并 不 是 Google 独 有 的 。 在 任何 按照 “目标 函数 ”进行 排序 ， 而 不 是 按照 用 户 对 搜索 结 
的 满意 度 进 行 排序 的 搜索 引擎 中 ， 都 存在 这 种 操控 。 大 家 可 以 对 它们 进行 比较 和 实验 : 

E Google; 

E Bing; 

E Baidu. 
































具有 更 少 操控 性 的 搜索 引擎 


为 了 检验 一 个 搜索 引擎 商业 化 和 具有 操控 性 的 程度 ,我 用 “开源 搜索 引擎 ”之 类 的 条 目 查询 
了 许多 搜索 引擎 ,然后 统计 排名 前 十 的 搜索 结果 中 广告 词 购买 者 和 点 击 诱饵 网 站 的 数量 。 以 下 网 
站 将 这 一 数字 保持 在 一 两 个 以 下 , 而 且 提 供 的 排名 靠 前 的 搜索 结果 中 基本 上 是 最 客观 和 最 有 用 的 
网 站 ， 如 维基 百科 、Stack Exchange 或 著名 的 新 闻 报 道 和 博客 。 
E Google WH.” 
E Yandex 一 一 令 人 惊讶 的 是 ， 最 流行 的 俄罗斯 搜索 引擎 (RE RAY 60% ) 似乎 没有 
排名 靠 前 的 美国 搜索 引擎 那么 具有 操控 性 。 
E DuckDuckGo。 
E watson 语义 Web 搜索 , 它 不 再 处 于 开发 阶段 ,也 不 是 真正 的 全 文 Web 搜索 , 但 它 是 探 
索 语义 Web 的 一 种 有 趣 方式 ( 至少 在 watson 被 冻结 之 前 是 这 样 )。 










































































分 布 式 搜索 引擎 


分 布 式 搜索 引擎 "可 能 是 最 不 具有 操控 性 和 最 “客观 ”的 ， 因 为 它们 没有 中 心服 务 器 来 影响 
搜索 结果 的 排名 。 然 而 ， 由 于 语义 搜索 NLP 算法 难以 扩展 和 分 布 式 部 署 ， 目 前 的 分 布 式 搜索 实 
现 依赖 TF-IDF 词 频 对 页 面 进行 排序 。 不 过 ， 语 义 索 引 方法 如 潜在 语义 分 析 CLSA ) 和 局 部 敏感 
哈 希 已 经 成 功 地 以 近乎 线性 伸缩 的 方式 进行 分 布 式 部 署 。 也 许 很 快 就 会 有 人 在 Yacy 这 种 开源 项 
目 中 贡献 语义 搜索 代码 ， 或 建立 一 个 新 的 支持 LSA 的 分 布 式 搜索 引擎 ， 这 只 是 时 间 问 题 。 

E Nutch 一 一 Nutch 催生 了 Hadoop, 随 着 时 间 的 推移 , 它 本 身 变 得 不 那么 像 一 个 分 布 式 搜索 

引擎 ， 而 更 像 一 个 分 布 式 HPC 系统 。 

国 “Yacy 一 一 少数 几 个 仍 在 使 用 的 开源 的 去 中 心 化 的 搜索 引擎 和 网 络 疏 虫 程序 之 一 ， 提 供 了 

预 配 置 的 Mac, Linux 和 Windows 客户 端 。 












































奈 尔 大 学 网 络 课程 案例 研究 , “Google AdWords Auction - A Second Price Sealed-Bid Auction” o 
见 标题 为 “Try These 15 Search Engines Instead of Google For Better Search Results” 的 网 页 。 
见 标题 为 “Distributed search engine” FI “Distributed Search Engines” AYP) it. 
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这 里 收集 了 一 些 常见 的 自然 语言 处 理 、 机 器 语言 缩 略 词 和 术语 的 定义 。 

读者 可 以 在 https://github.com/totalgood/nlpia 的 nlpia Python 包 中 找到 一 些 我 们 用 来 辅助 生 
成 这 个 词汇 表 的 解析 器 和 正则 表达 式 "。 下 列 代码 展示 了 我 们 如 何 使 用 nlpia 生成 这 个 词汇 表 
的 初步 版 本 : 

>>> from nlpia.book parser import write glossary 


>>> from nlpia.constants import DATA PATH 
>>> print (write_glossary ( 


os.path.join(DATA_PATH, 'book'))) g 于 不 可 能 在 你 的 数据 目录 












































== Acronyms 下 提供 所 有 的 原稿 ， 你 得 到 
的 结果 可 能 和 这 里 有 所 不 同 























[acronyms, template="glossary",id="terms"] 

*AGI*:: Artificial general intelligence -- 

*AI*:: Artificial intelligence -- 

*AIML*:: Artificial Intelligence Markup Language -- 
*ANN*:: Approximate nearest neighbors -- 

















我 们 没有 完成 上 述 词汇 定义 的 生成 器 ， 但 是 使 用 良好 的 LSTM 语言 模型 也 许 能 做 到 这 一 点 
( 见 第 10 章 )。 我 们 把 这 个 任务 留 给 读者 自己 来 完成 。 

















缩 略 词 


AGI (artificial general intelligence， 通 用 人 工 智 能 ) 机 器 智能 能 够 解决 人 类 大 脑 可 以 解决 
的 各 种 问题 。 

AI (artificial intelligence， 人 工 智能 ) 机 器 的 行为 令 人 印象 深刻 到 可 以 被 科学 家 或 公司 营 
销 人 员 称 为 智能 。 

AIML Artificial Intelligence Markup Language， 人 工 智能 标记 语言 ) 在 A.L.I.C.E. (第 一 





D nlpia.translators (src/nlpia/translators.py ) fI nlpia.book parser (src/nlpia/book parser.py ). 
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个 对 话 聊 天 机 器 人 之 一 ) 开发 期 间 发 明基 于 XML 的 模式 匹配 和 模板 化 响应 规范 语言 。 

ANN (approximate nearest neighbors， 近 似 最 近邻 ) 在 个 高 维 向 量 集合 中 找到 M 个 最 
接近 目标 向 量 的 向 量 是 一 个 复杂 度 为 O(V) 问 题 ， 因 为 必须 计算 每 个 向 量 和 目标 向 量 之 间 的 距离 
度量 。 这 使 得 聚 类 具有 难 解 的 OOV) 复 杂 度 。 

ANN (artificial neural network， 人 工 神经 网 络 )。 

API ( application programmer interface, 应 用 程序 编程 接口 ) 客户 是 开发 人 员 的 用 户 接口 ， 
通常 是 命令 行 工 具 、 源 代码 库 或 Web 接口 ， 开 发 人 员 可 以 通过 编程 的 方式 与 之 进行 交互 。 

AWS (Amazon Web Services, Amazon Web 服务 ) 亚马逊 在 向 世界 开放 其 内 部 基础 设施 时 
提出 了 云 服 务 的 概念 。 

BOW (bag of words， 词 袋 ) 一 种 数据 结构 (通常 是 一 个 向 量 )， 它 保留 词 的 计数 (频率 ) 
但 不 保留 其 顺序 。 

CEC (constant error carousel， 常 量 错误 轮 播 ) 输出 延迟 一 步 的 神经 元 。 在 LSTM 或 GRU 
内 存单 元 中 使 用 。 这 是 LSTM 单元 的 存储 器 寄存 器 ， 只 能 通过 遗忘 门 中 断 此 “ 轮 播 ” 来 重 置 为 新 值 。 

CNN (convolutional neural network， 卷 积 神经 网 络 ) 一 种 神经 网 络 ， 经 过 训练 可 以 学 习 
过 滤器 (也 称 为 卷 积 核 或 滤波 器 )， 用 于 监督 学 习 中 的 特征 提取 。 

CUDA (Compute Unified Device Architecture， 计 算 统一 设备 架构 ) 一 个 Nvidia 开源 软件 
库 ， 针 对 在 GPU 上 运行 通用 计算 /算法 进行 了 优化 。 

DAG (directed acyclic graph， 有 向 无 环 图 ) 没有 任何 环 和 循环 连接 的 网 络 拓扑 。 

DFA (deterministic finite automation ， 确 定性 有 限 自动 机 ) 一 个 不 做 随机 选择 的 有 限 状态 
Hlo Python 中 的 re 包 编 译 正则 表达 式 以 生成 DEFA， 但 regex 包 可 以 将 模糊 正则 表达 式 编译 为 
NDFA ( 非 确定 性 有 限 自动 机 )。 

FSM (finite state machine， 有 限 状 态 机 ) ALK + XKS (Kyle Gorman ) 和 维基 百科 比 我 
们 这 里 解释 得 更 好 。 

FST (finite state transducer， 有 限 状态 转换 机 ) 类 似 于 正则 表达 式 ， 但 它们 可 以 输出 一 个 
新 字符 来 替换 它们 匹配 的 每 个 字符 。 凯 尔 ， 苞 尔 曼 解释 得 很 好 。 

GIS (geographic information system， 地 理 信息 系统 ) 用 于 存储 、 控 制 和 显示 地 理 信息 的 
数据 库 ， 通 常 涉及 纬度 、 经 度 、 高 度 坐标 和 轨迹 。 

GPU (graphical processing unit， 图 形 处 理 单元 ) 游戏 装备 、 加 密 货币 挖掘 服务 器 或 机 器 
学 习 服 务 需 中 的 图 形 卡 。 

GRU (gated recurrent unit， 门 控 循 环 单元 ) 长 短期 记忆 网 络 的 变 体 ， 它 共享 参数 以 减少 
计算 时 间 。 

HNSW ( Hierarchical Navigable Small World) 一 种 实现 高 效 搜索 的 图 形 数据 结构 ( 可 以 
使 用 Yu A. Malkov 和 DA Yashunin 的 Hierarchical Navigable Small World 图 表 实 现 健壮 的 近似 最 
近邻 搜索 )。 

HPC (high performance computing， 高 性 能 计算 ) 通过 将 map 5 reduce 计算 阶段 分 离 
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实现 并 行 化 来 最 大 化 吞吐 量 的 系统 研究 。 

IDE (integrated development environment， 集 成 开发 环境 ) 用 于 软件 开发 的 桌面 应 用 程序 ， 
例如 PyCharm Eclipse, Atom 或 Sublime Text 3 。 

IR (information retrieval， 信 息 检索 ) 针对 文档 和 Web 搜索 引擎 算法 的 研究 。 该 研究 使 
NLP 在 20 世纪 90 年 代 成 为 重要 计算 机 科学 学 科 的 前 沿 。 

ITU (India Technical University， 印 度 科技 大 学 ) 一 流 的 技术 大 学 。 印 度 的 伍 治 亚 理工 学 院 。 

i18n (internationalization， 国 际 化 ) 为 在 多 个 国家 ( 区 域 ) 使 用 应 用 程序 进行 准备 。 

LDA (linear discriminant analysis， 线 性 判别 分 析 ) 类 之 间 具 有 线性 边界 的 分 类 算法 ( 见 
第 4 章 )。 

LSA (latent semantic analysis ， 潜 在 语义 分 析 ) 应 用 于 TF-IDF 或 词 袋 向 量 的 截断 的 SVD, 
从 而 在 向 量 空间 语言 模型 中 创建 主题 向 量 ( 见 第 4 童 )。 

LSH (locality sensitive hash， 局 部 敏感 哈 希 ) 一 种 用 于 稠密 、 连 续 、 高 维 向 量 的 有 效 但 近 
似 的 映射 / 聚 类 索引 的 哈 希 〈 见 第 13 章 )。 可 以 将 它们 视 为 不 仅仅 适用 于 二 维 向 量 〈 经度 和 纬度 ) 
的 邮政 编码 。 

LSI (latent semantic indexing， 潜 在 语义 索引 ) 一 种 描述 潜在 语义 分 析 的 旧 方 式 ( 见 LSA ), 
但 这 是 一 个 误 称 ， 因 为 LSA 向 量 空间 模型 不 便于 索引 。 

LSTM (long short-term memory， 长 短期 记忆 ) 循环 神经 网 络 的 一 种 增强 形式 ,通过 反 癌 
传播 维持 训练 的 自身 状态 记忆 ( 见 第 9 FF )。 

MIH ( multi-index hashing， 多 索引 哈 希 ) 一 种 用 于 高 维 稠密 向 量 的 哈 希 和 索引 方法 。 

ML (machine learning， 机 器 学 习 ) 使 用 数据 而 不 是 手工 编码 算法 对 机 器 进行 编程 。 

MSE (mean squared error， 均 方 误差 ) 机 器 学 习 模 型 的 期 望 输出 与 模型 的 实际 输出 之 间 
的 差 的 平方 和 。 

NELL ( Never Ending Language Learning， 永 恒 语 言 学 习 ) Carnegie Mellon 的 知识 提取 
项 目 ， 连 续 运 行 多 年 ， 抓 取 网 页 并 提取 有 关 世 界 的 通用 知识 〈 主要 是 术语 之 间 的 “IS-A” 分 类 
关系 )。 

NLG (natural language generation ， 自 然 语言 生成 ) 基于 算法 自动 生成 文本 ， 是 自然 语言 
处 理 (NLP ) 最 具 挑 战 性 的 任务 之 一 。 

NLP (natural language processing， 自 然 语言 处 理 ) 到 现在 为 止 大 家 大 概 已 经 知道 这 是 什 
么 了 。 如 果 没 有 ， 请 参阅 第 1 章 中 的 介绍 。 

NLU (natural language understanding， 自 然 语 言 理解 ) 在 最 近 的 论文 中 经 常 指 使 用 神经 
网 络 进行 自然 语言 处 理 。 

NMF (nonnegative matrix factorization ， 非 负 和 矩阵 分 解 ) 与 SVD 类 似 的 矩阵 分 解 ， 但 约 
束 和 矩阵 因子 中 的 所 有 元 素 大 于 或 等 于 零 。 

NSF (National Science Foundation， 美 国 国家 科学 基金 会 ) 负责 资助 科学 研究 的 美国 政府 
机 构 。 
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NYC (New York City， 纽 约 市 ) 美国 不 夜 城 。 

OSS (open source software， 开 源 软 件 )。 

pip ( pip installs pip, pip 安装 pip ) Python 官方 包 管 理 器 ， 上 自动 从 “Cheese Shop” 下 载 并 
安装 包 。 

PR (Pull Request， 拉 取 请 求 ) 请 求 某 人 将 你 的 代码 合并 到 他 们 的 代码 中 的 正确 做 法 。 
GitHub 有 一 些 按钮 和 向 导 可 以 让 该 操作 很 容易 实现 。 这 是 大 家 建立 自己 作为 开源 有 力 贡献 者 声 
誉 的 方法 。 

PCA (principal component analysis， 主 成 分 分 析 ) 在 任何 数值 型 数据 上 的 截断 的 SVD, 
通常 是 图 像 或 音频 文件 。 

QDA (quadratic discriminant analysis， 二 次 判别 分 析 ) 与 LDA 类 似 , 但 允许 类 之 间 的 二 
次 ( 曲线 ) 边界 。 

ReLU (rectified linear unit， 修 正 线性 单元 ) 线性 神经 网 络 激活 函数 ， 强 制 神经 元 的 输出 
非 零 。 相 当 于 y = np.max (x，0) 。 图 像 处 理 和 NLP 领域 最 流行 和 最 有 效 的 激活 函数 ， 因 为 
它 让 反 向 传播 在 极 深 的 神经 网 络 上 有 效 运 行 而 不 会 出 现 “ 梯 度 消失 ”。 

REPL ( read-evaluate-print loop， 读 取 - 求 值 -输出 循环 ) 任何 无 须 编译 的 脚本 语言 开发 人 
员 的 典型 工作 流程 。ipython、jupyter 控制 台 和 jupyter 记事 本 的 REPL 功能 特别 强大 ， 基 于 
其 help、?、?? 和 % 神 奇 命令 ， 以 及 自动 补 全 和 Ctrl-R 历史 搜索 。 

RMSE (root mean square error， 均 方 根 误 差 ) 均 方 误差 的 平方 根 。 篆 见 的 回归 误差 指标 。 
它 也 可 以 用 于 二 值 和 序数 分 类 问题 。 它 提供 了 模型 预测 中 1-sigma 不 确定 性 的 直观 估计 。 

RNN (recurrent neural network， 循 环 神经 网 络 ) 一 种 神经 网 络 架 构 ， 将 一 层 的 输出 输入 
到 下 一 层 。RNN 通常 被 “展开 ”到 等 效 的 前 馈 神经 网 络 中 进行 图 解 和 分 析 。 

SMO (sequential minimal optimization， 序 列 最 小 优化 算法 ) 一 种 支持 向 量 机 的 训练 方法 
和 算法 。 

SVD ( singular value decomposition ， 奇 异 值 分 解 ) 一 种 矩阵 分 解 ， 它 产生 特征 值 的 对 角 和 矩 
阵 和 两 个 包含 特征 向 量 的 正 交 和 矩阵。 这 是 LSA 和 PCA BUR WRC AI (LSS 4 章 )。 

SVM (support vector machine， 支 持 向 量 机 ) 通常 用 于 分 类 的 一 种 机 需 学 习 算 法 。 

TF-IDF (term frequency x inverse document frequency， 词 项 频率 乘 以 逆 文 档 频率 ) 一 种 
词 频 归 一 化 的 方法 ， 可 以 改善 信息 检索 结果 ( 见 第 3 章 )。 

UI (user interface, HARE) 通过 软件 为 用 户 提供 的 “可 视 性 ” ,通常 是 图 形 化 网 页 或 移 
动 应 用 程序 屏幕 ， 用 户 必须 与 之 交互 才能 使 用 产品 或 服务 。 

UX (user experience， 用 户 体 验 ) 客户 与 产品 或 公司 互动 的 本 质 ， 从 购买 一 直到 他 们 与 我 
们 的 最 后 一 次 联系 。 这 包括 你 的 网 站 或 网 站 上 的 APIUI 以 及 与 你 公司 的 所 有 其 他 互动 。 

VSM (vector space model， 向 量 空间 模型 ) 问题 中 对 象 的 向 量 表 示 ， 例 如 NLP 问题 中 的 
词 或 文档 ( 见 第 4 章 和 第 6 章 )。 

YMMV ( Your mileage may vary， 因 人 而 异 ) 你 可 能 无 法 获得 与 我 们 相同 的 结 
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术语 

affordance (可 视 性 ) 一 种 有 意 设计 的 让 用 户 与 产品 进行 交互 的 方式 。 理 想 情 况 下 ， 这 种 交 
互 对 用 户 来 说 是 自然 的 、 易 于 发 现 的 和 自 描述 的 。 

artificial neural network ( 人 工 神经 网 络 ) 一 种 用 于 机 器 学 习 或 模拟 生物 神经 网 络 ( 脑 ) 的 
计算 图 。 

cell (元 胞 ) LSTM 单元 中 记录 一 个 标量 值 和 并 连续 输出 它 的 记忆 或 状态 的 部 分 。 

dark patterns ( 黑暗 模式 ) 一 种 为 了 提升 收益 的 软件 模式 (通常 用 于 用 户 界 面 )， 但 往往 由 
于 “后 坐 力 ” 而 失败 ， 因 为 它们 操纵 客户 以 他 们 不 希望 的 方式 使 用 产品 。 

feed-forward network ( 前 馈 网 络 ) 一 种 “ 单 向 ”神经 网 络 ， 它 将 所 有 输入 以 一 致 的 方向 传 
递 到 输出 ， 形 成 有 向 无 环 计 算 图 ( DAG ) 或 树 。 

morpheme (语素 ) 词 条 或 词 的 一 部 分 , 其 本 身 具有 意义 。 构 成 词 条 的 语素 统称 为 词 条 的 形 
态 。 使 用 像 SpaCy 这 样 的 包 中 的 算法 可 以 得 到 词 条 的 形态 , 该 算法 基于 其 上 下 文 (周围 的 词 ) 来 
处 理 词 条 。 

net, network 或 者 neural net ( 网 络 或 神经 网 络 ) 人 工 神 经 网 络 。 

neuron (T) 神经 网 络 中 的 一 个 单元 ， 其 函数 (例如 y = tanh (w.dot (x) ) ) 接受 
多 个 输入 并 输出 单个 标量 值 。 该 值 通常 由 该 神经 元 的 权重 w BK w ) 乘 以 所 有 输入 信号 (xx ) 
并 加 上 偏 置 权重 (w), 后 面 接 像 tanh 这 样 的 激活 函数 得 到 。 神 经 元 总 是 输出 标量 值 ， 该 标量 值 可 
以 作为 网 络 中 任何 其 他 隐藏 或 输出 神经 元 的 输入 。 如 果 神 经 元 实现 了 比 上 面 更 复杂 的 激活 函数 , 就 
像 对 创建 LSTM 的 循环 神经 元 所 做 的 增强 一 样 ， 它 一 般 就 会 被 称 为 单元 ， 例 如 LSTM 单元 。 

nessvector ( 属性 向 量 ) 一 个 非 正式 术语 ， 指 将 概念 或 特性 ( 如 女性 特征 或 蓝 色 特 征 ) 捕捉 
到 向 量 的 维度 中 的 主题 向 量 或 语义 向 量 。 

predicate (〈 谓语 ) 在 英语 语法 中 ， 谓 语 是 句子 中 与 主语 相关 的 主要 动词 。 每 个 完整 的 句子 
都 必须 有 一 个 谓语 ， 就 像 它 必须 有 一 个 主语 一 样 。 

skip-gram ” 词 条 跳 对 ， 用 作词 向 量 租 入 的 训练 样本 ,其 中 忽略 了 词 条 之 间 的 间隔 ( 见 第 
6 H) 

softmax ” 归 一 化 指数 函数 ， 用 于 将 一 个 神经 网 络 的 实数 向 量 输出 压缩 至 取 值 范 围 为 0 到 1 
的 概率 区 间 。 

subject ( 主语) 句子 的 主要 名 词 一 一 每 个 完整 的 句子 必须 有 一 个 主语 ( 和 谓语 )， 即 使 主语 
是 隐 含 的 ， 例 如 句子 “Run!”， 其 中 隐 含 的 主语 是 “你 ”。 

unit (单元) 神经 元 或 小 的 神经 元 集合 ， 执 行 一 些 更 复杂 的 非 线性 函数 来 计算 输出 。 例 如 ， 
LSTM 单元 具有 记录 状态 的 记忆 元 胞 ， 一 个 决定 要 记 住 什么 值 的 输入 门 ( 神经 元 )， 一 个 决定 记 
住 该 值 多 长 时 间 的 遗忘 门 ( 神经 元 )， 以 及 一 个 实现 该 单元 激活 函数 ( 通常 是 sigmoid 或 tanh() ) 
的 输出 门神 经 元 。 单 元 是 神经 网 络 中 神经 元 的 直接 替代 ,， 它 接受 向 量 输入 并 输出 标量 值 ， 只 是 它 
有 更 复杂 的 行为 。 

















































































































































































































